本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
import jieba excludes = {"將軍","卻說","荊州","二人","不可","不能","如此", "商議","如何","主公","軍士","左右","軍馬"} txt = open("三國演義.txt","r",encoding='utf-8').read() words = jieba.lcut(txt) counts = {} for word in words: if len(word)==1: continue elif word=="諸葛亮"or word =="孔明曰": rword = "孔明" elif word == "關公" or word == "云長曰": rword = "關羽" elif word == "玄德" or word == "玄德曰": rword = "劉備" elif word == "孟德" or word == "丞相": rword = "曹操" else: rword = word counts[rword]=counts.get(rword,0)+1 for word in excludes: del(counts[word]) items = list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(5): word,count=items[i] print("{0:<10}{1:>5}".format(word,count))
運行結果:
知識擴展:
1.Jieba庫是什么
Jieba庫是優秀的中文分詞第三方庫,中文文本需要通過分詞獲得單個的詞語,
Jieba庫的分詞原理:利用一個中文詞庫,確定漢字之間的關聯概率,漢字間概率大的組成詞組,形成分詞結果,除了分詞,用戶還可以添加自定義的詞組,
2.Jieba庫的使用
Jieba庫分詞有3種模式
1)精確模式:就是把一段文本精確地切分成若干個中文單詞,若干個中文單詞之間經過組合,就精確地還原為之前的文本,其中不存在冗余單詞,
2)全模式:將一段文本中所有可能的詞語都掃描出來,可能有一段文本它可以切分成不同的模式,或者有不同的角度來切分變成不同的詞語,在全模式下,Jieba庫會將各種不同的組合都挖掘出來,分詞后的資訊再組合起來會有冗余,不再是原來的文本,
3)搜索引擎模式:在精確模式基礎上,對發現的那些長的詞語,我們會對它再次切分,進而適合搜索引擎對短詞語的索引和搜索,也有冗余,
以下文章來源于Python小例子,作者 無塵
轉載地址
https://blog.csdn.net/fei347795790?t=1
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/139153.html
標籤:其他
下一篇:python提取視頻第一幀圖片
