WordCloud：連份好點的詞云資料都找不到？我什么時候受過這氣！！！-有解無憂

在這里插入圖片描述

好看嗎？
好看就對了，不是你做的，
也不是我做的，，，，

但是吧，跟我走，不后悔，

文章目錄

- 嘮嗑兩句
- 基礎知識
- - 依賴項
  - 常用API
  - 其他常用函式
- 基礎案例（英文詞云）
- 基礎案例（中文詞云）
- - jieba
  - 富強民主
- 騷操作
- - 騷操作一：透明影像
  - 騷操作二：字體顏色按影像顯示
  - 騷操作三：給微信好友的個性簽名做一張詞云（半成品）
  - 騷操作四：魔童降世

嘮嗑兩句

我這記性不太好，有些話現在不說，寫著寫著就忘了，還是先說了吧，

就這種東西啊，我這種沒專業學過設計的人是設計不出來多好看的，是吧，倒也不是什么審美不好啊，就是純粹沒見過什么好看的詞云，談何想象的空間呢？

就當說我一直以來對詞云的認知就停留在了用文字平常一個圖案，但是我萬萬沒想到，還能讓文字環繞一個圖案（見上面那個哪吒），

所以啊，第一步，也是最重要的一步，叫做：知道自己要設計什么樣的詞云，

所以現在我們先打開百度，搜一下詞云相關的，你喜歡什么關鍵詞就選什么關鍵詞，五分鐘后再回來，

技術都是可以學的，眼界不行，

我去兜兜轉轉了40分鐘，好，我回來了，一會兒看我能做幾個出來，

基礎知識

基礎咱也不多廢話，直接上代碼和API，

依賴項

from PIL import Image

# 下面四個要自備
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS

懂得都懂，該下載的都下載好，

常用API

我舉個栗子再看API吧，不然給繞暈了，

'寫了什么不重要，看格式'

wc = WordCloud(
    #設定字體，不指定就會出現亂碼,這個字體檔案需要下載
    font_path=r'STKAITI.TTF',
    background_color="white",
    max_words=2000,
    mask=alice_mask,
    stopwords=stopwords)
# generate word cloud
wc.generate(text)

以下是WordCloud函式的引數：

font_path : string  #字體路徑，需要展現什么字體就把該字體路徑+后綴名寫上，如：font_path = '黑體.ttf'
# 關于這個字體啊，我要插個嘴進來：去百度一下自己電腦上的字體目錄在哪里，因為不同系統的目錄是不一樣的，
# 找到字體目錄之后，復制，復制，復制到當前工程專案下，因為多半在系統盤，Python很可能沒有權限去訪問，反正我是沒有，
# 然后，那個后綴也不一定是ttf，具體情況具體分析，復制過去就知道是什么后綴了，我的就是TTF ，

width : int (default=400) #輸出的畫布寬度，默認為400像素
 
height : int (default=200) #輸出的畫布高度，默認為200像素
 
prefer_horizontal : float (default=0.90) #詞語水平方向排版出現的頻率，默認 0.9 （所以詞語垂直方向排版出現頻率為 0.1 ）
# 后面我們做比較規矩的詞云的時候就要用到這個了

mask : nd-array or None (default=None) #如果引數為空，則使用二維遮罩繪制詞云，如果 mask 非空，設定的寬高值將被忽略，遮罩形狀被 mask 取代，除全白（#FFFFFF）的部分將不會繪制，其余部分會用于繪制詞云，如：bg_pic = imread('讀取一張圖片.png')，背景圖片的畫布一定要設定為白色（#FFFFFF），然后顯示的形狀為不是白色的其他顏色，可以用ps工具將自己要顯示的形狀復制到一個純白色的畫布上再保存，就ok了，
# 開局那個哪吒明顯不能這么搞，但是現在我也還不知道要怎么搞，不急，
 
scale : float (default=1) #按照比例進行放大畫布，如設定為1.5，則長和寬都是原來畫布的1.5倍
 
min_font_size : int (default=4) #顯示的最小的字體大小
 
font_step : int (default=1) #字體步長，如果步長大于1，會加快運算但是可能導致結果出現較大的誤差
 
max_words : number (default=200) #要顯示的詞的最大個數
 
stopwords : set of strings or None #設定需要屏蔽的詞，如果為空，則使用內置的STOPWORDS
 
background_color : color value (default=”black”) #背景顏色，如background_color='white',背景顏色為白色
 
max_font_size : int or None (default=None) #顯示的最大的字體大小
 
mode : string (default=”RGB”) #當引數為“RGBA”并且background_color不為空時，背景為透明
# 報錯：OSError: cannot write mode RGBA as JPEG
# 報錯原因：RGBA意思是紅色，綠色，藍色，Alpha的色彩空間，Alpha指透明度，而JPG不支持透明度
# 解決方法：要么丟棄Alpha,要么保存為.png檔案
 
relative_scaling : float (default=.5) #詞頻和字體大小的關聯性
 
color_func : callable, default=None #生成新顏色的函式，如果為空，則使用 self.color_func
 
regexp : string or None (optional) #使用正則運算式分隔輸入的文本
 
collocations : bool, default=True #是否包括兩個詞的搭配
 
colormap : string or matplotlib colormap, default=”viridis” #給每個單詞隨機分配顏色，若指定color_func，則忽略該方法
 
random_state : int or None  #為每個單詞回傳一個PIL顏色

其他常用函式

fit_words(frequencies)  #根據詞頻生成詞云

generate(text)  #根據文本生成詞云

generate_from_frequencies(frequencies[, ...])   #根據詞頻生成詞云

generate_from_text(text)    #根據文本生成詞云

process_text(text) #將長文本分詞并去除屏蔽詞(此處指英語，中文分詞還是需要自己用別的庫先行實作，使用上面的 fit_words(frequencies))

recolor([random_state, color_func, colormap])   #對現有輸出重新著色，重新上色會比重新生成整個詞云快很多

to_array()  #轉化為 numpy array

to_file(filename)   #輸出到檔案

wordcloud.random_color_func(
    word=None,
????font_size=None,
    position=None,
????orientation=None,
    font_path=None,
    random_state=None
)
'''
隨機色調顏色生成，
默認著色方法，這只是選擇值為80％和亮度為50％的隨機色相，
??引數：
????random_state: 隨機種子
????其余引數被忽略，
'''

wordcloud.get_single_color_func(color)
# 創建一個顏色函式，該函式回傳單個色調和飽和度，不同的值（HSV），可接受的值是PIL / Pillow可以使用的顏色字串，

基礎案例（英文詞云）

import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 1.讀入txt文本資料
text = open(r'test.txt', "r",encoding = 'utf-8').read()
# 檔案是網上隨便找的，https://zhidao.baidu.com/question/248186919.html

# 2.生成詞云圖，這里需要注意的是WordCloud默認不支持中文
# 無自定義背景圖：需要指定生成詞云圖的像素大小，默認背景顏色為黑色,統一文字顏色：mode='RGBA'
wc = WordCloud(
        # 設定背景色
        background_color='white',
        # 設定背景寬
        width=500,
        # 設定背景高
        height=350,
        # 最大字體
        max_font_size=50,
        # 最小字體
        min_font_size=10,
        mode='RGBA',
        #colormap='pink'    # 太丑了
)
# 產生詞云
wc.generate(text)
# 保存圖片
wc.to_file(r"wordcloud.png") # 按照設定的像素寬高度保存繪制好的詞云圖，比下面程式顯示更清晰
# 4.顯示圖片
# 指定所繪圖名稱
plt.figure("WordCloud_test1")
# 以圖片的形式顯示詞云
plt.imshow(wc)
# 關閉影像坐標系
plt.axis("off")
plt.show()

在這里插入圖片描述

基礎案例（中文詞云）

jieba

先來了解一下jieba這個庫吧，

精確模式（最常用，只會這個就行）：每個字只用一遍，不存在冗余詞匯，jieba.cut('XXX')

全模式：把每個字可能形成的詞匯都提取出來，存在冗余，jieba.cut('XXX',cut_all=True)

搜索引擎模式：將全模式分詞的結果從短到長排列好，jieba.cut_for_search('XXX')

精確模式是最常用的，

富強民主

找了張地圖，整了這么一張：
在這里插入圖片描述

文本內容：富強、民主、文明、和諧、自由、平等、公正、法制、愛國、敬業、誠信、友善

圖片：
在這里插入圖片描述

代碼展示：

from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS

# Read the whole text.
file = open('test.txt',encoding='utf-8').read()
##進行分詞
default_mode =jieba.cut_for_search(file)
text = " ".join(default_mode)
alice_mask = np.array(Image.open("1.png"))
stopwords = set(STOPWORDS)
stopwords.add("said")
wc = WordCloud(
    #設定字體，不指定就會出現亂碼,這個字體檔案需要下載
    font_path=r'STKAITI.TTF',
    background_color="white",
    max_words=2000,
    mask=alice_mask,
    # contour_width=1, 加這么一行可以繪制輪廓線，不過這個輪廓畫的不太準，就不畫了，
    stopwords=stopwords)
# generate word cloud
wc.generate(text)

# store to file
wc.to_file("qq_result.jpg")

# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

騷操作

我也不知道這么說，就，看圖吧，

騷操作一：透明影像

在這里插入圖片描述

像這種的，在一個大圖里面有某一組成部分是詞云的，怎么弄呢？

我起初也納悶兒，直到我看到了這張圖：
在這里插入圖片描述

我掙扎了一下午，沒整出透明圖片，那我就把思路放這兒吧，都給我整煩了，

在這里插入圖片描述

就這樣吧，找到了一個網站，，，

太棒了，怎么會有這么好的人呢！！！

騷操作二：字體顏色按影像顯示

在這里插入圖片描述

import jieba as jb
import wordcloud as wc
from PIL import Image
import numpy as np             #1  imread常報錯，用numpy和pil替換掉了，
mask=np.array(Image.open('孫悟空.jpg'))
f = open('test.txt','r',encoding='utf-8')
image_colors = wc.ImageColorGenerator(mask)    #2 按圖片顏色顯示字體顯色
#寫出不要出現的詞組
exclude={'沒有','什么','這樣','這種','這里','不會','一些','這個','仍然','不是',\
        '我們','你們','他們','它們','因為','因而','所以','如果','那么',\
        '如此','只是','但是','就是','這是','那是','而是','而且','雖然',\
        '自己','知道','可以','看到','那兒','問題','一會兒','一點','現在','兩個',\
        '這些','有些','然后','已經','于是','一種','一個','一樣','時候',\
        '三個','說道','可是','地方','怎么','這兒','突然','可能','甚至','還是',\
        '那些','還有','只有',\
}

t = f.read()
f.close()
ls = jb.lcut(t)
txt = ' '.join(ls)
w = wc.WordCloud(font_path = 'STXINGKA.TTF',max_words=2000,\
                 min_font_size=1,max_font_size=30,mask=mask,width = 1000,\
    height = 1000,background_color = 'white',stopwords=exclude,\
                 color_func=image_colors)#3 圖片顏色加到引數里
w.generate(txt)
w.to_file('孫悟空.png')

騷操作三：給微信好友的個性簽名做一張詞云（半成品）

我沒有失敗，只是暫時，還沒成功，

# 11號詞云：繪制你的微信好友個性簽名詞云
# B站專欄：同濟子豪兄 2019-05-23

# 匯入微信庫ichat，中文分詞庫jieba
import itchat
import jieba

# 先登錄微信，跳出登陸二維碼
itchat.login()
tList = []
# 獲取好友串列
friends = itchat.get_friends(update=True)

# 構建所有好友個性簽名組成的大串列tList
for i in friends:
    # 獲取個性簽名
    signature = i["Signature"]
    if 'emoji' in signature:
        pass
    else:
        tList.append(signature)
text = " ".join(tList)

# 對個性簽名進行中文分詞
wordlist_jieba = jieba.lcut(text, cut_all=True)
wl_space_split = " ".join(wordlist_jieba)

# 匯入imageio庫中的imread函式，并用這個函式讀取本地圖片，作為詞云形狀圖片
import imageio
mk = imageio.imread("chinamap.png")

# 匯入詞云制作庫wordcloud
import wordcloud

# 構建并配置詞云物件w，注意要加scale引數，提高清晰度
my_wordcloud = wordcloud.WordCloud(background_color='white',
                                   width=1000,
                                   height=700,
                                   font_path='msyh.ttc',
                                   max_words=2000,
                                   mask=mk,
                                   scale=20)
my_wordcloud.generate(wl_space_split)

nickname = friends[0]['NickName']
filename = "output11-{}的微信好友個性簽名詞云圖.png".format(nickname)
my_wordcloud.to_file(filename)

# 顯示詞云圖片
import matplotlib.pyplot as plt
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
print('程式結束')

騷操作四：魔童降世

為什么這么早就出這個啦？
啊，不是沒東西了，是后面的東西更實用，

說真的，這個用Python我還真不知道該怎么處理，

我大概懂了一點，要用文字環繞，，，
但是wordcloud好像不支持吧，，，

等著吧，寒假兩個月時間我再去掙扎一下，

現在，只能用人家的工具了，工具及教程在此，速來

在這里插入圖片描述

其實人家工具也挺好的（軟骨頭）
一年也不貴，

既然是用工具，我就不幫他們做那么多事兒了，教程他們自己提供，我把圖給你們吧、
在這里插入圖片描述

哎，本來要再整點硬菜（情感分析），但是調研之后，發現，此物非我寒假不可得，

這篇詞云昨天就允諾給我的粉絲群了，結果拖到了今天，實在抱歉，不能再拖了，

然后呢，我還要對這篇里面的坑說一句：我一定會回來的！！！

好了，我先去復習了，明天下午就烤了，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/245710.html

標籤：其他

上一篇：聽說你想提高開發效率，快來看看這些idea最實用的快捷鍵，讓你的開發如虎添翼！

下一篇：圖論模板，不定期更新