畅想小说网

第二节 中文分词(第2页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

在工作目录中存放待分词的文本文件“text.txt”

,打开这个文本文件可以看到这是一则新闻。

导入两个模块codecs和jieba。

实际工作中,需要处理的文本来源不同,所使用的编码方式有可能也不相同。

当需要对编码格式进行转换时,就需要用到codecs这个模块。

另一个模块jieba是分词需要使用的主要工具。

In[1]:importcodecs

In[2]:importjieba

指定需要进行分词的文件为“text.txt”

,分词结果生成并存放在文件“textsep.txt”

中。

指定字符编码格式为“utf-8”

,并通过readline读取文本中的第一行。

I=code('textsep.txt','w','utf-8')

In[4]:source=code("text.txt",eng='utf-8')

In[5]:line=soure()

通过循环语句逐行读取文本进行分词。

通过lirip('n')去除每一行后的换行符,用jiebaut进行分词并保存到seg_list中,参数cut_all=False表示采用精确模式进行分词,最后把所有分词结果使用空格作为分隔连接起来。

打印分词结果可以看到分词基本准确,但也有一些不够准确的地方。

In[7]:whileli;":

&rip('n')

&=jieba.e,cut_all=False)

output=''.joi))

print(output)

&e(output+'')

line=soure()

结巴分词还有更多的参数可以调整,读者可以逐个尝试调整参数,观察分词结果会有什么变化。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

签到十年,我成圣了科普精灵:最强宝可梦教父玄灵界都知道我柔弱可怜但能打最弱功德系统全球高武:开局签到百倍奖励空战之王洪荒混沌天尊苟在四合院捡漏混沌规则剑装夜夜生香重回1980:请再爱我一次哈利波特:虚假的狮院勇士冥婚盛宠:校草鬼夫好凶猛第一序列名门挚爱:帝少的千亿宠儿从骷髅岛开始横推万界末日之最终战争从亮剑开始的特种战帝国崛起从玄君七章开始蚀骨承欢:老公,别强来修罗天帝真千金她是全能大佬大明第一臣