畅想小说网

第四节 文本情绪分析(第10页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

sourcelose()

corpuslose()

&urncorpus

#词典创建函数,返回词索引、词向量以及每个句子所对应的词语索引

defcorpus_dione,

e):#不限制模型和语料库数据格式

#如果模型和语料库正确输入,返回相应的值,否则显示无输入数据

if(corpusisnotNone)aNone):

&=Diary()

&.doodel.wv.vocab.key(),

allow_update=True)

#计算在文档中,每个关键词出现的频率并用稀疏矩阵的方式返回结果。

例如(0,1)

#(1,1)...表达的意思是此文档中,出现了词典中的第0个词1次,出现了第

#1个词1次,依此类推。

另外,允许增加新的文档来更新这个稀疏矩阵

w2indx={v:k+1fensim_dict.items()}

#所有频数超过10的词的索引k和v代表key和value,遍历词典中所有元素

#w2veodel[word]forwordinw2indx.keys()}所有

#频数超过10的词的词向量

defrebuild_corpus(corpus):

#用词的频率和索引重新描述语料库

data=[]

forsentencorpus:

&=[]

forwordience:

try:

&.append(w2indx[word])

&:

&.append(0)

data.appe)

&a

corpus=rebuild_corpus(corpus)

#对语料的句子进行处理,每个句子允许的最大长度为maxlen,

#超过这个值的句子会被截断,短于这个值的句子会用0填充

#可用参数控制截断和填充从头开始还是从尾进行

corpus=sequence.pad_sequenaxlen=maxlen)

&urnw2indx,w2vec,corpus

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

星宝三岁半被六个舅舅团宠了初唐峥嵘剑装直播写纯爱文的我在虫族封神混沌冠冕帝霸谍影风云高武:我有一个合成栏超级全能系统老祖她靠快穿修仙成神太太请自重全职高手之世邀赛同人青珂浮屠我在民国当道士从洪荒逃走当幕后黑手我真不是大佬港综世界完美人生麻衣道祖问鼎之谋局者玄门妖王铁血强国洪荒之妖皇逆天逃荒:她从空间掏出千万物资魔王追妻:纨绔妖神妃开局爆出熟练度面板