前言

本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理，

前文內容

Python爬蟲新手入門教學（一）：爬取豆瓣電影排行資訊

Python爬蟲新手入門教學（二）：爬取小說

Python爬蟲新手入門教學（三）：爬取鏈家二手房資料

Python爬蟲新手入門教學（四）：爬取前程無憂招聘資訊

Python爬蟲新手入門教學（五）：爬取B站視頻彈幕

基本開發環境

Python 3.6
Pycharm

相關模塊的使用

jieba
wordcloud

安裝Python并添加到環境變數，pip安裝需要的相關模塊即可，

上篇文章爬取了B站視頻的彈幕資料，對于這方面可以做一些彈幕詞云分析，讓爬蟲資料不再過于單調，

代碼內容還是非常簡介的，看注釋就可以明白了

import jieba
import wordcloud
# 讀取檔案內容
f = open('彈幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 分詞 分割詞匯
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞云圖設定
wc = wordcloud.WordCloud(
        width=1000,         # 圖片的寬
        height=700,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞云字體
        scale=15,
)
# 給詞云輸入文字
wc.generate(string)
# 詞云圖保存圖片地址
wc.to_file('out.png')

由上圖所示，有很多的這樣的到位這樣的關鍵詞，這樣的關鍵詞是沒有什么實際意義的，我們可以在詞云設定中設定停用詞

stopwords={'到位'}

如果你想要輸入的圖片不是正方形的圖片，想要設定成自己想要的形狀，需要先找一張透明圖
匯入 imageio 模塊

import jieba
import wordcloud
import imageio
# 匯入imageio庫中的imread函式，并用這個函式讀取本地圖片，作為詞云形狀圖片
py = imageio.imread('.\\0.jpg')  #  如何你想要改變詞云圖的形狀，可以添加
# 讀取檔案內容
f = open('B站彈幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 分詞 分割詞匯
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞云圖設定
wc = wordcloud.WordCloud(
        width=1000,         # 圖片的寬
        height=700,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞云字體
        mask=py,     # 所使用的詞云圖片
        scale=15,
        stopwords={'到位'},         # 停用詞
        # contour_width=5,
        # contour_color='red'  # 輪廓顏色
)
# 給詞云輸入文字
wc.generate(string)
# 詞云圖保存圖片地址
wc.to_file('out.png')

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/253390.html

標籤：Python

上一篇：python基礎篇之資料型別

下一篇：Python爬蟲入門教程09：多執行緒爬取表情包圖片

Python爬蟲新手入門教學（六）：制作詞云圖

前言

前文內容

基本開發環境

相關模塊的使用