前言
本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理,
前文內容
Python爬蟲新手入門教學(一):爬取豆瓣電影排行資訊
Python爬蟲新手入門教學(二):爬取小說
Python爬蟲新手入門教學(三):爬取鏈家二手房資料
Python爬蟲新手入門教學(四):爬取前程無憂招聘資訊
Python爬蟲新手入門教學(五):爬取B站視頻彈幕
基本開發環境
- Python 3.6
- Pycharm
相關模塊的使用
- jieba
- wordcloud
安裝Python并添加到環境變數,pip安裝需要的相關模塊即可,
上篇文章爬取了B站視頻的彈幕資料,對于這方面可以做一些彈幕詞云分析,讓爬蟲資料不再過于單調,
代碼內容還是非常簡介的,看注釋就可以明白了
import jieba import wordcloud # 讀取檔案內容 f = open('彈幕.txt', encoding='utf-8') txt = f.read() # jiabe 分詞 分割詞匯 txt_list = jieba.lcut(txt) string = ' '.join(txt_list) # 詞云圖設定 wc = wordcloud.WordCloud( width=1000, # 圖片的寬 height=700, # 圖片的高 background_color='white', # 圖片背景顏色 font_path='msyh.ttc', # 詞云字體 scale=15, ) # 給詞云輸入文字 wc.generate(string) # 詞云圖保存圖片地址 wc.to_file('out.png')
由上圖所示,有很多的這樣的 到位 這樣的關鍵詞,這樣的關鍵詞是沒有什么實際意義的,我們可以在詞云設定中設定 停用詞
stopwords={'到位'}
如果你想要輸入的圖片不是正方形的圖片,想要設定成自己想要的形狀,需要先找一張 透明圖
匯入 imageio 模塊
import jieba import wordcloud import imageio # 匯入imageio庫中的imread函式,并用這個函式讀取本地圖片,作為詞云形狀圖片 py = imageio.imread('.\\0.jpg') # 如何你想要改變詞云圖的形狀,可以添加 # 讀取檔案內容 f = open('B站彈幕.txt', encoding='utf-8') txt = f.read() # jiabe 分詞 分割詞匯 txt_list = jieba.lcut(txt) string = ' '.join(txt_list) # 詞云圖設定 wc = wordcloud.WordCloud( width=1000, # 圖片的寬 height=700, # 圖片的高 background_color='white', # 圖片背景顏色 font_path='msyh.ttc', # 詞云字體 mask=py, # 所使用的詞云圖片 scale=15, stopwords={'到位'}, # 停用詞 # contour_width=5, # contour_color='red' # 輪廓顏色 ) # 給詞云輸入文字 wc.generate(string) # 詞云圖保存圖片地址 wc.to_file('out.png')
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/253390.html
標籤:Python
上一篇:python基礎篇之資料型別
