第二节中文分词（第2页）

天才一秒记住【畅想小说网】地址：http://www.cxtra.net

在工作目录中存放待分词的文本文件“text.txt”

，打开这个文本文件可以看到这是一则新闻。

导入两个模块codecs和jieba。

实际工作中，需要处理的文本来源不同，所使用的编码方式有可能也不相同。

当需要对编码格式进行转换时，就需要用到codecs这个模块。

另一个模块jieba是分词需要使用的主要工具。

In[1]：importcodecs

In[2]：importjieba

指定需要进行分词的文件为“text.txt”

，分词结果生成并存放在文件“textsep.txt”

中。

指定字符编码格式为“utf-8”

，并通过readline读取文本中的第一行。

I=code（'textsep.txt'，'w'，'utf-8'）

In[4]：source=code（"text.txt"，eng='utf-8'）

In[5]：line=soure（）

通过循环语句逐行读取文本进行分词。

通过lirip（'n'）去除每一行后的换行符，用jiebaut进行分词并保存到seg_list中，参数cut_all=False表示采用精确模式进行分词，最后把所有分词结果使用空格作为分隔连接起来。

打印分词结果可以看到分词基本准确，但也有一些不够准确的地方。

In[7]：whileli;"：

&rip（'n'）

&=jieba.e，cut_all=False）

output=''.joi））

print（output）

&e（output+''）

line=soure（）

结巴分词还有更多的参数可以调整，读者可以逐个尝试调整参数，观察分词结果会有什么变化。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第二节 中文分词（第2页）