天才一秒记住【畅想小说网】地址:http://www.cxtra.net
,包含了“中外”
“外科”
“科学”
“外科学”
“名著”
等词汇,如何根据上下文的含义对词汇进行正确的切分?文本中还有可能存在手写错误或输入不规范的情况,如何减少这种因素的影响?在汉语中存在大量的多音字、多义词和歧义句,如“他和我说的一模一样”
,可以理解成他的样子和我描述的样子是一样的,也可以理解成他所说的话和我所说的话是一样的。
要让机器准确地理解句子的含义,必须结合上下文的语境来判断,如何让机器具有一定的记忆功能,从而可以结合语境理解语义?这些都是困难的问题。
自然语言处理的历史大体与人工智能的历史同步,1950年图灵提出的判断机器智能的“图灵测试”
,即是理解文本并做出符合人类逻辑的问答系统的一种测试标准。
早期的处理方法多是基于规则的,通过使用计算机语言描述语法、词性、构词法等,尝试让机器理解人类的语言。
这种方法开发的周期很长,需要语言学、语音学等各领域的专家配合。
并且很难建立完整的规则体系描述人类的语言,开发出的系统泛化能力很差,严格的规则对于一些非本质错误容忍度很低(如输入错误),在大数据量的背景下,进行系统优化也很困难。
种种原因导致基于规则的方法渐渐不受重视,20世纪70年代,基于经验(统计)的方法开始大放异彩。
IBM采用统计的方法解决语音识别问题,将识别率从70%提升到90%,使得语音识别有了从实验室走向实际应用的可能。
大量基于统计的机器学习算法,如贝叶斯方法、隐马尔可夫、最大熵、支持向量机等,都被用于自然语言处理并取得了某种程度的成功。
在当下这个深度学习成为人工智能主角的时代,深度学习技术当然也被大量地用于自然语言处理领域,它能够注意到前后词语之间的关联,通过各种网络结构来学习文本的整体含义,而不是孤立地看待单个或数个词汇,可以认为深度学习是处理并理解语言的第三种方法。
在对待这些不同流派的方法时,应该采取理性的态度。
任何技术都有它的优缺点和生命周期,现在自然语言处理仍处于不太成熟的发展期,没有哪种方法能够完美地解决问题,结合不同方法的优点,才是正确的方向。
例如,应用深度学习处理语言问题时,结合基于规则的方法,往往会取得更好的效果。
另外,虽然现有的自然语言处理技术仍不能进行常识性地推理或者可靠地描述知识,但是在解决这些难题的同时要认识到,存在缺陷的语言处理系统同样十分有用,如何结合现有的技术水平开发实际的应用场景,也是值得思考的。
这一章将结合具体的案例挑选自然语言处理中的几个专题进行讲解,包括中文分词、词向量以及文本情绪分析。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!