大家上午好,
本人搞了一些基于word2vec 的詞匯語意相似度 實驗,但是代碼有些問題,具體來講:
第一、我想訓練指定路徑里的全部檔案(總共有1800萬詞),但是目前我的代碼只能指定一個檔案。
第二、我的語料已經分詞好了,其中詞與詞以空格隔開,以英文句號隔開句子。想讓word2vec也按這個要求訓練我的語料,希望大佬給予代碼。
第三、我需要訓練大于1800萬詞的語料,但是目前訓練一個100萬的語料居然要30分鐘,希望大佬給予改進代碼。
第四、訓練完的語料再次呼叫不上,只能再次訓練希望給予解決。
上述說了貌似很多,但是都是很基本的問題,希望大佬給予代碼修改,真心感謝。我的代碼如下所示。beast wishes for you!
# -*- coding: utf-8 -*-
from gensim.models import word2vec
from gensim.models import Word2Vec
import logging
import gensim
# 主程式
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)
sentences =word2vec.Text8Corpus(u"C:\\Users\\amgalang\\Desktop\\Ph.D\\詞向量練習冊\\7練習\\前兩節課.txt") # 加載語料
model =word2vec.Word2Vec(sentences, sg=0,min_count=2,window=5,size=100) #訓練skip-gram模型,默認window=5
model.save("text2.model") #模型保存地址
#例子訓練
y2 = model.most_similar(u"BI", topn=20)
print(u"和復合詞AH_A=DEGUU語意相關的詞匯排序:")
for item in y2:
print (item[0], item[1])
print("-----\n")
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/152648.html
上一篇:跪求大神解答
