gensim模型中的單詞不在詞匯錯誤中-有解無憂

from bs4 import BeautifulSoup
import requests
cont = requests.get("https://ichi.pro/tr/veri-biliminde-uzaklik-olculeri-159983401462266").content
soup = BeautifulSoup(cont,"html.parser")
metin = soup.text

import re
sonu?1 = re.search("1. ?klid Mesafesi",metin)
sonu?2 = re.search('Okudu?unuz i?in te?ekkürler!',metin)
metin = metin[sonu?1.start():sonu?2.start()].split("\n")

from gensim.models import Word2Vec
model = Word2Vec(metin,size=200,window=15,min_count=5,sg=5)

model.wv["Jaccard mesafesi"]

梅丁是：

....'     Jaccard mesafesi',
 '    ',
 '',
 'Dezavantajlar?',
 'Jaccard endeksinin ?nemli bir dezavantaj?, verilerin büyüklü?ünden olduk?a etkilenmesidir. Büyük veri kümelerinin endeks üzerinde büyük bir etkisi olabilir, ?ünkü kesi?me noktas?n? benzer tutarken birle?meyi ?nemli ?l?üde art?rabilir.',
 'Kullan?m Durumlar?',
 'Jaccard indeksi, genellikle ikili veya ikili verilerin kullan?ld??? uygulamalarda kullan?l?r. Bir g?rüntünün segmentlerini, ?rne?in bir arabay? tahmin eden bir derin ??renme modeliniz oldu?unda, Jaccard indeksi daha sonra, do?ru etiketler verilen tahmin edilen segmentin ne kadar do?ru oldu?unu hesaplamak i?in kullan?labilir.',
 'Benzer ?ekilde, belgeler aras?nda ne kadar kelime se?iminin ?rtü?tü?ünü ?l?mek i?in metin benzerlik analizinde kullan?labilir. B?ylece, desen setlerini kar??la?t?rmak i?in kullan?labilir.',
 '8. Haversine',
 '',
 '',
 '',
 '     Haversine mesafesi. Yazar taraf?ndan g?rüntü.',
 '    ',
....

注意：我是土耳其語，所以我的內容是土耳其語，但這并不重要，我認為如果您是陌生人，這不是問題第二個注意：我嘗試其他單詞但我無法訓練模型？我該怎么辦？

uj5u.com熱心網友回復：

有多個問題：

如果您想要土耳其語模型，您可以嘗試為土耳其語找到一個預訓練的 Word2Vec 模型（例如查看此存盤庫）或自己為土耳其語訓練一個模型。你現在使用它的方式似乎是在訓練一個模型，但只從一個網站上訓練，這幾乎不會做任何事情，因為模型需要大量的句子來學習任何東西（比如至少 10.000 個，更好的更多）。無論如何你也設定min_count=5了，所以任何出現少于 5 次的單詞通常都會被忽略。嘗試在土耳其語維基百科上對其進行培訓，請參閱鏈接的存盤庫。
Word2Vec 默認是一元模型，因此輸入是單個單詞。如果你給它一個由兩個單詞組成的二元組，就像"Jaccard mesafesi"它不會找到任何東西。此外，您應該抓住單詞不在詞匯表中的情況，否則每個未知單詞都會導致錯誤并且您的程式會取消。搜索每個標記的一元表示，然后將兩者結合起來，例如使用向量的統計平均值：
```
import numpy

ngram = "Jaccard mesafesi"
split_ngram = ngram.split()
try:
    ngram_vector = []
    for w in split_ngram:
        ngram_vector.append(model.wv[w])
    ngram_vector = numpy.mean(unigram_vectors, axis=0)
except:
    ngram_vector = None
    print(f"Word {word} is not in vocabulary")
```
用于訓練的 Word2Vec 類將tokenized句子串列作為引數，因此串列單詞串列。你把它交給了完整的、未分詞的句子。

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/448280.html

標籤：网页抓取 nlp nltk gensim word2vec

上一篇：使用BeautifulSoup進行簡單且少量的抓取中的標簽和類的HTML問題

下一篇：網頁抓取-表名