Python詞頻分析

一、前言

在日常作業或者生活中，有時候會遇到詞頻分析的場景，如果是要進行詞頻分析，那么首先需要對句子進行分詞，將句子中的單詞進行切割并按照詞性進行歸類，
在Python中有個第三方庫叫jieba(結巴)，可以對文章或者陳述句進行分詞，不得不佩服這個庫的作者，真是個取名鬼才：)

二、分詞

2.1 安裝庫

jieba庫github地址
jieba庫官方給出了3中安裝庫的方式，分別如下：
全自動安裝：
easy_install jieba 或者 pip install jieba / pip3 install jieba
半自動安裝：
先下載 http://pypi.python.org/pypi/jieba/ ，解壓后運行 python setup.py install
手動安裝：
將 jieba 目錄放置于當前目錄或者 site-packages 目錄

2.2 方法介紹

2.2.1 jieba.cut

方法接受四個輸入引數:
1、需要分詞的字串；
2、cut_all 引數用來控制是否采用全模式；
3、HMM 引數用來控制是否使用 HMM 模型；
4、use_paddle 引數用來控制是否使用paddle模式下的分詞模式，paddle模式采用延遲加載方式，通過enable_paddle介面安裝paddlepaddle-tiny，并且import相關代碼；
注意：
1、實測paddle模式無法開啟(jieba.enable_paddle())，會報錯，
2、該方法回傳的是generator，如果需要回傳list，則可以通過list轉換結果或者使用jieba.lcut方法
3、待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串，不建議直接輸入 GBK 字串，可能無法預料地錯誤解碼成 UTF-8，

2.2.1 jieba.cut_for_search

方法接受兩個引數：
1、需要分詞的字串；
2、是否使用 HMM 模型，
注意：
1、該方法適合用于搜索引擎構建倒排索引的分詞，粒度比較細，
2、該方法回傳的是generator，如果需要回傳list，則可以通過list轉換結果或者使用jieba.lcut_for_search方法，

2.2.2 jieba.Tokenizer(dictionary=DEFAULT_DICT)

該方法用于新建自定義分詞器，可用于同時使用不同詞典，jieba.dt 為默認分詞器，所有全域分詞相關函式都是該分詞器的映射，

2.3 代碼示例

2.3.1 分詞

# encoding=utf-8
import jieba

strs = ["我來到北京清華大學", "乒乓球拍賣完了", "中國科學技術大學"]
for s in strs:
    seg_list = jieba.cut(s, use_paddle=False)  # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 默認是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業于中國科學院計算所，后在日本京都大學深造")  # 搜索引擎模式
print(", ".join(seg_list))

運行結果：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\FURONG~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.705 seconds.
Prefix dict has been built successfully.
Paddle Mode: 我/來到/北京/清華大學
Paddle Mode: 乒乓球/拍賣/完/了
Paddle Mode: 中國/科學技術/大學
Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
Default Mode: 我/ 來到/ 北京/ 清華大學
他, 來到, 了, 網易, 杭研, 大廈
小明, 碩士, 畢業, 于, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, ，, 后, 在, 日本, 京都, 大學, 日本京都大學, 深造

2.3.2 載入詞典

開發者可以指定自己自定義的詞典，以便包含 jieba 詞庫里沒有的詞，雖然 jieba 有新詞識別能力，但是自行添加新詞可以保證更高的正確率，
用法：jieba.load_userdict(file_name) # file_name 為檔案類物件或自定義詞典的路徑，
詞典格式和 dict.txt 一樣(dict.txt為安裝jieba庫時自帶的詞典，路徑為：Python安裝路徑\Lib\site-packages\jieba\dict.txt)，一個詞占一行；每一行分三部分：

詞語
詞頻（可省略）
詞性（可省略）
用空格隔開，順序不可顛倒，file_name 若為路徑或二進制方式打開的檔案，則檔案必須為 UTF-8 編碼，
詞頻省略時使用自動計算的能保證分出該詞的詞頻，
例如：

創新辦 3 i
云計算 5
凱特琳 nz
臺中

更改分詞器（默認為 jieba.dt）的 tmp_dir 和 cache_file 屬性，可分別指定快取檔案所在的檔案夾及其檔案名，用于受限的檔案系統，
范例：
自定義詞典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
加載自定義詞庫前：李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 云 / 計算 / 方面 / 的 / 專家 /
加載自定義詞庫后：　李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 云計算 / 方面 / 的 / 專家 /
調整詞典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程式中動態修改詞典，
使用 suggest_freq(segment, tune=True) 可調節單個詞語的詞頻，使其能（或不能）被分出來，
注意：自動計算的詞頻在使用 HMM 新詞發現功能時可能無效，

print('/'.join(jieba.cut('如果放到post中將出錯，', HMM=False)))
如果/放到/post/中將/出錯/，
jieba.suggest_freq(('中', '將'), True)
494
print('/'.join(jieba.cut('如果放到post中將出錯，', HMM=False)))
如果/放到/post/中/將/出錯/，
print('/'.join(jieba.cut('「臺中」正確應該不會被切開', HMM=False)))
「/臺/中/」/正確/應該/不會/被/切開
jieba.suggest_freq('臺中', True)
69
print('/'.join(jieba.cut('「臺中」正確應該不會被切開', HMM=False)))
「/臺中/」/正確/應該/不會/被/切開

2.3.3 詞性標注

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定義分詞器，tokenizer 引數可指定內部使用的 jieba.Tokenizer 分詞器，jieba.posseg.dt 為默認詞性標注分詞器，
標注句子分詞后每個詞的詞性，采用和 ictclas 兼容的標記法，

import jieba.posseg as pseg

words = pseg.cut("我愛北京天安門")
for word, flag in words:
    print('%s %s' % (word, flag))

我 r
愛 v
北京 ns
天安門 ns

詞性和專名類別標簽集合如下表，其中詞性標簽 24 個（小寫字母），專名類別標簽 4 個（大寫字母）：

三、實體

3.1 分詞

這里就拿筆者最近看的一本小說判官.txt來進行實體詞頻分析吧，目的是想要分析這本小說的人物、名詞、地名，從而對這本小說有個大概的認識，
分詞代碼如下：

    def m_get_content(self):
        """
        獲取給定txt或str中的內容
        @return: {str:獲取到的內容}
        """
        if self.f_input.endswith('.txt'):
            with open(self.f_input, 'r', encoding='utf-8') as f:
                content = f.read()
        else:
            content = self.f_input
        return content
    def m_get_target_words_from_content(self, p_content):
        """
        從目標內容中獲取到指定詞性的詞語
        @param p_content: 需要分詞的內容
        @return: {list:分詞后的詞語}
        """
        return [
            _.word
            for _ in psg.cut(p_content)
            if len(_.word) > 1 and _.flag in self.f_wordclass
        ]

3.2 按照詞頻排序

def words_frequency(p_list, p_reverse=True):
    """
    回傳給定的list中的所有元素按照頻率和指定的順序組成的list
    @param p_list: 給定的list
    @param p_reverse: 指定的排序順序(倒序為True，正序為False)
    @return: {list[tuple]:經過排序后的內容}
    """
    result = {}
    for word in p_list:
        result.setdefault(word, 0)
        result[word] += 1
    return sorted(result.items(), key=lambda x: x[1], reverse=p_reverse)
    def m_words_sort(self, p_words: list):
        """
        對獲取到的分詞的內容進行按照頻率排序
        @param p_words: 需要進行按頻率排序的內容
        @return: {list[tuple]:經過排序后的內容}
        """
        return words_frequency(p_list=p_words, p_reverse=self.f_reverse)

3.3 獲取排序后的前N項內容制作柱圖

    def m_show_words_frequency(self, p_words_sort: list):
        """
        將p_words_sort中的內容提取前p_ranknum項使用"-"符號展示柱圖，
        @param p_words_sort: 要用來展示柱圖的dict內容
        @return: {str:柱圖}
        """
        max_frequency = max(p_words_sort[0][1], p_words_sort[-1][1])
        ratio = max_frequency / self.f_shownum
        print('%-5s\t%-5s\t%-5s\t%-15s' % ('序號', '詞性', '詞頻', '柱圖'))
        for i in range(self.f_ranknum):
            print(f'{i + 1:<5}\t{p_words_sort[i][0]:<5}\t{p_words_sort[i][1]:<5}\t{"-" * int(p_words_sort[i][1] / ratio):<15}')

3.4 獲取排序后的前N項內容制作詞云圖

用Python制作詞云圖需要安裝wordcloud第三方庫，參照如下：
python詞云制作（最全最詳細的教程）

from wordcloud import WordCloud
        words_cloud = ' '.join([_[0] for _ in words_sort[:10]])
        wordcloud = WordCloud(font_path="msyh.ttc").generate(words_cloud)
        wordcloud.to_file(self.f_wordcloud_fn)

3.5 結果

人名部分

序號詞性詞頻柱圖
1 聞時 1405 ------------------------------
2 謝問 1092 -----------------------
3 周煦 762 ----------------
4 卜寧 513 ----------
5 張嵐 466 ---------
6 張雅臨 332 -------
7 張碧靈 219 ----
8 沈曼怡 216 ----
9 張正初 185 ---
10 李先生 164 ---

名詞部分

序號詞性詞頻柱圖
1 時候 777 ------------------------------
2 有點 449 -----------------
3 傀線 376 --------------
4 手指 345 -------------
5 聲音 324 ------------
6 地方 316 ------------
7 感覺 293 -----------
8 眼睛 255 ---------
9 老毛 209 --------
10 對方 208 --------

地名部分

序號詞性詞頻柱圖
1 夏樵 803 ------------------------------
2 東西 550 --------------------
3 大東 231 --------
4 沈家 184 ------
5 云山 140 -----
6 沈橋 80 --
7 寧州 51 -
8 下山 45 -
9 天津 35 -
10 西屏園 32 -

3.6 完整代碼

import jieba.posseg as psg


def words_frequency(p_list, p_reverse=True):
    """
    回傳給定的list中的所有元素按照頻率和指定的順序組成的list
    @param p_list: 給定的list
    @param p_reverse: 指定的排序順序(倒序為True，正序為False)
    @return: {list[tuple]:經過排序后的內容}
    """
    result = {}
    for word in p_list:
        result.setdefault(word, 0)
        result[word] += 1
    return sorted(result.items(), key=lambda x: x[1], reverse=p_reverse)


class WordsFrequency:
    def __init__(self, p_input: str, p_wordclass: list[str], p_ranknum=10, p_reverse=True, p_shownum=30, p_wordcloud_fn='人名.jpg'):
        """
        @param p_input: 要分析的檔案名或字串，檔案必須為txt格式，編碼為utf-8.
        @param p_wordclass: 要獲取的詞性，常見的型別有：普通名詞n、人名nr、地名ns
        @param p_ranknum: 要獲取前多少個目標詞性的詞語，
        @param p_reverse: 目標詞語通過頻率指定的排序方向，(倒序為True，正序為False)
        @param p_shownum: 頻率最多的元素使用的柱圖示識"-"的個數，
        @param p_wordcloud_fn: 生成詞云圖的圖片檔案名
        """
        self.f_input = p_input
        self.f_wordclass = p_wordclass
        self.f_ranknum = p_ranknum
        self.f_reverse = p_reverse
        self.f_shownum = p_shownum
        self.f_wordcloud_fn = p_wordcloud_fn

    def m_get_content(self):
        """
        獲取給定txt或str中的內容
        @return: {str:獲取到的內容}
        """
        if self.f_input.endswith('.txt'):
            with open(self.f_input, 'r', encoding='utf-8') as f:
                content = f.read()
        else:
            content = self.f_input
        return content

    def m_get_target_words_from_content(self, p_content):
        """
        從目標內容中獲取到指定詞性的詞語
        @param p_content: 需要分詞的內容
        @return: {list:分詞后的詞語}
        """
        return [
            _.word
            for _ in psg.cut(p_content)
            if len(_.word) > 1 and _.flag in self.f_wordclass
        ]

    def m_words_sort(self, p_words: list):
        """
        對獲取到的分詞的內容進行按照頻率排序
        @param p_words: 需要進行按頻率排序的內容
        @return: {list[tuple]:經過排序后的內容}
        """
        return words_frequency(p_list=p_words, p_reverse=self.f_reverse)

    def m_show_words_frequency(self, p_words_sort: list):
        """
        將p_words_sort中的內容提取前p_ranknum項使用"-"符號展示柱圖，
        @param p_words_sort: 要用來展示柱圖的dict內容
        @return: {str:柱圖}
        """
        max_frequency = max(p_words_sort[0][1], p_words_sort[-1][1])
        ratio = max_frequency / self.f_shownum
        print('%-5s\t%-5s\t%-5s\t%-15s' % ('序號', '詞性', '詞頻', '柱圖'))
        for i in range(self.f_ranknum):
            print(f'{i + 1:<5}\t{p_words_sort[i][0]:<5}\t{p_words_sort[i][1]:<5}\t{"-" * int(p_words_sort[i][1] / ratio):<15}')

    def main(self):
        content = self.m_get_content()
        words = self.m_get_target_words_from_content(content)
        words_sort = self.m_words_sort(words)
        # 柱圖部分
        self.m_show_words_frequency(words_sort)
        # 生成詞云圖
        from wordcloud import WordCloud
        words_cloud = ' '.join([_[0] for _ in words_sort[:10]])
        wordcloud = WordCloud(font_path="msyh.ttc").generate(words_cloud)
        wordcloud.to_file(self.f_wordcloud_fn)


if __name__ == '__main__':
    wf = WordsFrequency(p_input='判官.txt', p_wordclass=['ns'], p_wordcloud_fn='地名.jpg')
    wf.main()

從自動化辦公到智能化辦公

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/500168.html

標籤：Python

上一篇：用python寫的一個簡易圖書管理系統

下一篇：Python 實作貪心演算法