天才一秒记住【畅想小说网】地址:http://www.cxtra.net
下述参数表示对每个输入词向量训练函数的句子迭代的次数。
这可以理解为用
来向训练函数中输入数据的迭代器的迭代次数,通常情况下,训练函数第一
次接收数据用来收集单词并计算词频,第二次及以后,用来做神经网络训练。
因为会迭代iterations+1次,所以此参数至少为1。
也可以更大,用以增加对
每个输入的训练次数,但训练速度会更慢。
现在模块的训练函数中,指明了
build_vo操作,所以就是训练一次。
这样做,而不是直接用
gensimodels.Word2Vec(corpus)是为了可以处理输入数据不能重复的情
况,扩展性更好。
'''
&ions=1
n_exposures=10#训练中,出现频率低于10次的词会被忽略
window_size=10#训练中考虑的上下文的最大长度
batch_size=32
n_epoch=10
ih=100
#并行cpu的数量,可设置为cpu的核心数量
ultiprog.t()
#定义加载语料库函数
defloadcorpus():
#读取语料库,文件格式txt,编码utf-8
corpus=code('语料_sep.txt','w','utf-8')
source=code("语料.txt",eng='utf-8')
line=soure()
#分词
whileli;":
&rip('n')
&=jieba.e,cut_all=False)#精确模式
output=''.joi))#空格拼接
corpus.write(output+'')#空格取代换行'rn'
line=soure()
else:
corpus.write('rn')
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!