Python分析《三國演義》人物出場次數，孔明第二，趙云第五-有解無憂

本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理，

import jieba
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此",
            "商議","如何","主公","軍士","左右","軍馬"}
txt = open("三國演義.txt","r",encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word)==1:
        continue
    elif word=="諸葛亮"or word =="孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "云長曰":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
        counts[rword]=counts.get(rword,0)+1
for word in excludes:
    del(counts[word])
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(5):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

運行結果：

知識擴展：

1.Jieba庫是什么

Jieba庫是優秀的中文分詞第三方庫，中文文本需要通過分詞獲得單個的詞語，

Jieba庫的分詞原理：利用一個中文詞庫，確定漢字之間的關聯概率，漢字間概率大的組成詞組，形成分詞結果，除了分詞，用戶還可以添加自定義的詞組，

2.Jieba庫的使用

Jieba庫分詞有3種模式

1）精確模式：就是把一段文本精確地切分成若干個中文單詞，若干個中文單詞之間經過組合，就精確地還原為之前的文本，其中不存在冗余單詞，

2）全模式：將一段文本中所有可能的詞語都掃描出來，可能有一段文本它可以切分成不同的模式，或者有不同的角度來切分變成不同的詞語，在全模式下，Jieba庫會將各種不同的組合都挖掘出來，分詞后的資訊再組合起來會有冗余，不再是原來的文本，

3）搜索引擎模式：在精確模式基礎上，對發現的那些長的詞語，我們會對它再次切分，進而適合搜索引擎對短詞語的索引和搜索，也有冗余，

以下文章來源于Python小例子，作者無塵

轉載地址

https://blog.csdn.net/fei347795790?t=1

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/139153.html

標籤：其他

上一篇：laravel之無限級分類實作方法

下一篇：python提取視頻第一幀圖片