我用語料庫中所有檔案的相似度得分創建了一個直方圖。分數是用 TF-IDF/余弦相似度計算的。請參閱包含的影像。我不是 100% 確定如何閱讀圖表。分數的緊湊性是否表明語料庫以好的方式密切相關或以不好的方式密切相關?還是我完全看錯了?
tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), min_df=5)
tfidf_matrix = tf.fit_transform(ds['clean_text'])
cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)
uj5u.com熱心網友回復:
查看直方圖,似乎檔案相似度不是那么集中(余弦相似度有界 [0,1],您的直方圖范圍約為 0.2-1)。這是好是壞取決于你對資料的期望,以及你以后想用 TF-IDF 矩陣做什么。如果你有一個多樣化的語料庫(例如維基百科),那么你會期望范圍很廣,如果你的余弦相似度分數范圍很窄,你就會懷疑。但是,如果您的語料庫源自一組高度相似的檔案(例如,來自某班學生的讀書報告)。
一般來說,您的相似性分數的分布更像是一個僅供參考,而不是資料集質量的衡量標準。
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/408687.html
標籤:
