天才一秒记住【畅想小说网】地址:http://www.cxtra.net
在工作目录中存放待分词的文本文件“text.txt”
,打开这个文本文件可以看到这是一则新闻。
导入两个模块codecs和jieba。
实际工作中,需要处理的文本来源不同,所使用的编码方式有可能也不相同。
当需要对编码格式进行转换时,就需要用到codecs这个模块。
另一个模块jieba是分词需要使用的主要工具。
In[1]:importcodecs
In[2]:importjieba
指定需要进行分词的文件为“text.txt”
,分词结果生成并存放在文件“textsep.txt”
中。
指定字符编码格式为“utf-8”
,并通过readline读取文本中的第一行。
I=code('textsep.txt','w','utf-8')
In[4]:source=code("text.txt",eng='utf-8')
In[5]:line=soure()
通过循环语句逐行读取文本进行分词。
通过lirip('n')去除每一行后的换行符,用jiebaut进行分词并保存到seg_list中,参数cut_all=False表示采用精确模式进行分词,最后把所有分词结果使用空格作为分隔连接起来。
打印分词结果可以看到分词基本准确,但也有一些不够准确的地方。
In[7]:whileli;":
&rip('n')
&=jieba.e,cut_all=False)
output=''.joi))
print(output)
&e(output+'')
line=soure()
结巴分词还有更多的参数可以调整,读者可以逐个尝试调整参数,观察分词结果会有什么变化。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!