第三节词向量（第2页）

天才一秒记住【畅想小说网】地址：http://www.cxtra.net

为了解决通过向量描述词的含义的问题，分布式表示需要根据大量的文本统计不同词在上下文中的关系。

例如，通过统计出现的频率，发现在“中国”

这个词的前后，经常会出现“北京”

这个词，那就认为这两者有比较密切的关系。

在词向量的分布式表示中，经常采用的模型有两种，分别是CBOW（连续式词袋模型）和SKIP-GRAM。

其中CBOW是根据某个词前面的k个词和后面k个词，来计算某个词出现的概率，也就是通过上下文来预测词。

例如，有一句话“我很困”

，那这句话后面出现“睡觉”

这个词的概率就比较大。

SKIP-GRAM与此相反，是通过词来预测它的上下文，也就是计算某个词前面和后面出现其他词的概率。

例如，出现了“睡觉”

，那么它的上下文中出现“困”

“床”

的概率就会比较大。

通过建立这种联系，就解决了独热表示方法注意不到词与词之间关系的问题。

使用神经网络进行词表示的另一个优点在于，通过搭建合适的网络结构、制订合适的训练方法，在一定程度上保留词的含义的前提下，可以压缩表示词的向量的维数。

这个过程可以理解为，通过训练，自动抽取词的含义的主要特征，从而把词以较小维数的向量展示出来。

本教材不详细解释这种训练方式的细节。

采用这种表示方式，2013年Google首先推出了用于获取词的向量表示的工具包，称为word2vec。

现在基于类似想法的工具包还有很多，利用gensim实现词向量训练非常简单，本教材将采用gensim提供的工具包实现词向量的训练任务。

训练词向量首先需要准备一个语料库，从这个语料库学习词与词之间的联系以及词的含义。

语料库其实是训练数据。

从这个角度来说，语料库越大，训练出的向量的准确程度就越高。

作为案例，本教材使用金庸先生的武侠小说《笑傲江湖》作为语料库。

第三节 词向量（第2页）