天才一秒记住【畅想小说网】地址:http://www.cxtra.net
第二节中文分词
banner"
>
前面已经谈到过分词的问题。
因为词是表达语义的最小单位,所以几乎所有语言处理模型都是建立在识别词的基础之上的,这是自然语言处理中的一个基本问题。
英文的词之间存在天然的分界符(空格),所以只要识别分界符就可以解决大部分分词问题。
这里之所以说解决的是大部分问题,是因为在手写文本识别任务中,因为存在书写不规范的问题,所以英文同样需要更高级的分词技术。
更重要的,在中文、日文等词之间不存在明确分界符的语言中,准确分词是几乎所有其他自然语言处理工作的前提。
接下来以中文为例介绍如何实现分词任务。
一个简单的处理分词问题的方法是建立中文词典,需要对句子进行分词时,要从词典中查询,遇到词典中存在的词汇就标识出来。
这样做存在一个小问题,就是词典需要不断更新;还有一个大的问题,就是它不能很好地适应中文的复杂性。
例如,“研究生命起源”
,正确的分词方式是“研究生命起源”
。
但是在词典中还可以查询到“研究生”
“命”
,如果按照“研究生命起源”
分词是不正确的,但是机器并不能确定使用哪种方式分词,所以如果只采用查询词典的方式分词效果不是很好。
有一些办法可以改进这些缺点。
例如,很多学者在20世纪90年代以前,尝试通过建立大量的文法规则来解决问题。
但是语言的复杂性决定了基于规则的方法依然不是十分成功。
随着基于统计的方法开始大量应用于自然语言处理,分词问题慢慢取得了越来越好的效果。
现在已经有多个效果较好的开源分词工具,如结巴分词(jieba)、盘古分词、LTP、THULAC等。
下面使用在网络上抓取的新闻文本作为案例,介绍如何利用结巴分词实现文本的分词工作。
相关的文本数据可以在平台下载。
首先需要安装结巴分词模块,可以在命令行窗口通过如下命令安装
pipinstalljieba
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!