
好看嗎?
好看就對了,不是你做的,
也不是我做的,,,,
但是吧,跟我走,不后悔,
文章目錄
- 嘮嗑兩句
- 基礎知識
- 依賴項
- 常用API
- 其他常用函式
- 基礎案例(英文詞云)
- 基礎案例(中文詞云)
- jieba
- 富強民主
- 騷操作
- 騷操作一:透明影像
- 騷操作二:字體顏色按影像顯示
- 騷操作三:給微信好友的個性簽名做一張詞云(半成品)
- 騷操作四:魔童降世
嘮嗑兩句
我這記性不太好,有些話現在不說,寫著寫著就忘了,還是先說了吧,
就這種東西啊,我這種沒專業學過設計的人是設計不出來多好看的,是吧,倒也不是什么審美不好啊,就是純粹沒見過什么好看的詞云,談何想象的空間呢?
就當說我一直以來對詞云的認知就停留在了用文字平常一個圖案,但是我萬萬沒想到,還能讓文字環繞一個圖案(見上面那個哪吒),
所以啊,第一步,也是最重要的一步,叫做:知道自己要設計什么樣的詞云,
所以現在我們先打開百度,搜一下詞云相關的,你喜歡什么關鍵詞就選什么關鍵詞,五分鐘后再回來,
技術都是可以學的,眼界不行,
我去兜兜轉轉了40分鐘,好,我回來了,一會兒看我能做幾個出來,
基礎知識
基礎咱也不多廢話,直接上代碼和API,
依賴項
from PIL import Image
# 下面四個要自備
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS
懂得都懂,該下載的都下載好,
常用API
我舉個栗子再看API吧,不然給繞暈了,
'寫了什么不重要,看格式'
wc = WordCloud(
#設定字體,不指定就會出現亂碼,這個字體檔案需要下載
font_path=r'STKAITI.TTF',
background_color="white",
max_words=2000,
mask=alice_mask,
stopwords=stopwords)
# generate word cloud
wc.generate(text)
以下是WordCloud函式的引數:
font_path : string #字體路徑,需要展現什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf'
# 關于這個字體啊,我要插個嘴進來:去百度一下自己電腦上的字體目錄在哪里,因為不同系統的目錄是不一樣的,
# 找到字體目錄之后,復制,復制,復制到當前工程專案下,因為多半在系統盤,Python很可能沒有權限去訪問,反正我是沒有,
# 然后,那個后綴也不一定是ttf,具體情況具體分析,復制過去就知道是什么后綴了,我的就是TTF ,
width : int (default=400) #輸出的畫布寬度,默認為400像素
height : int (default=200) #輸出的畫布高度,默認為200像素
prefer_horizontal : float (default=0.90) #詞語水平方向排版出現的頻率,默認 0.9 (所以詞語垂直方向排版出現頻率為 0.1 )
# 后面我們做比較規矩的詞云的時候就要用到這個了
mask : nd-array or None (default=None) #如果引數為空,則使用二維遮罩繪制詞云,如果 mask 非空,設定的寬高值將被忽略,遮罩形狀被 mask 取代,除全白(#FFFFFF)的部分將不會繪制,其余部分會用于繪制詞云,如:bg_pic = imread('讀取一張圖片.png'),背景圖片的畫布一定要設定為白色(#FFFFFF),然后顯示的形狀為不是白色的其他顏色,可以用ps工具將自己要顯示的形狀復制到一個純白色的畫布上再保存,就ok了,
# 開局那個哪吒明顯不能這么搞,但是現在我也還不知道要怎么搞,不急,
scale : float (default=1) #按照比例進行放大畫布,如設定為1.5,則長和寬都是原來畫布的1.5倍
min_font_size : int (default=4) #顯示的最小的字體大小
font_step : int (default=1) #字體步長,如果步長大于1,會加快運算但是可能導致結果出現較大的誤差
max_words : number (default=200) #要顯示的詞的最大個數
stopwords : set of strings or None #設定需要屏蔽的詞,如果為空,則使用內置的STOPWORDS
background_color : color value (default=”black”) #背景顏色,如background_color='white',背景顏色為白色
max_font_size : int or None (default=None) #顯示的最大的字體大小
mode : string (default=”RGB”) #當引數為“RGBA”并且background_color不為空時,背景為透明
# 報錯:OSError: cannot write mode RGBA as JPEG
# 報錯原因:RGBA意思是紅色,綠色,藍色,Alpha的色彩空間,Alpha指透明度,而JPG不支持透明度
# 解決方法:要么丟棄Alpha,要么保存為.png檔案
relative_scaling : float (default=.5) #詞頻和字體大小的關聯性
color_func : callable, default=None #生成新顏色的函式,如果為空,則使用 self.color_func
regexp : string or None (optional) #使用正則運算式分隔輸入的文本
collocations : bool, default=True #是否包括兩個詞的搭配
colormap : string or matplotlib colormap, default=”viridis” #給每個單詞隨機分配顏色,若指定color_func,則忽略該方法
random_state : int or None #為每個單詞回傳一個PIL顏色
其他常用函式
fit_words(frequencies) #根據詞頻生成詞云
generate(text) #根據文本生成詞云
generate_from_frequencies(frequencies[, ...]) #根據詞頻生成詞云
generate_from_text(text) #根據文本生成詞云
process_text(text) #將長文本分詞并去除屏蔽詞(此處指英語,中文分詞還是需要自己用別的庫先行實作,使用上面的 fit_words(frequencies))
recolor([random_state, color_func, colormap]) #對現有輸出重新著色,重新上色會比重新生成整個詞云快很多
to_array() #轉化為 numpy array
to_file(filename) #輸出到檔案
wordcloud.random_color_func(
word=None,
????font_size=None,
position=None,
????orientation=None,
font_path=None,
random_state=None
)
'''
隨機色調顏色生成,
默認著色方法,這只是選擇值為80%和亮度為50%的隨機色相,
??引數:
????random_state: 隨機種子
????其余引數被忽略,
'''
wordcloud.get_single_color_func(color)
# 創建一個顏色函式,該函式回傳單個色調和飽和度,不同的值(HSV),可接受的值是PIL / Pillow可以使用的顏色字串,
基礎案例(英文詞云)
import matplotlib.pyplot as plt
from wordcloud import WordCloud
# 1.讀入txt文本資料
text = open(r'test.txt', "r",encoding = 'utf-8').read()
# 檔案是網上隨便找的,https://zhidao.baidu.com/question/248186919.html
# 2.生成詞云圖,這里需要注意的是WordCloud默認不支持中文
# 無自定義背景圖:需要指定生成詞云圖的像素大小,默認背景顏色為黑色,統一文字顏色:mode='RGBA'
wc = WordCloud(
# 設定背景色
background_color='white',
# 設定背景寬
width=500,
# 設定背景高
height=350,
# 最大字體
max_font_size=50,
# 最小字體
min_font_size=10,
mode='RGBA',
#colormap='pink' # 太丑了
)
# 產生詞云
wc.generate(text)
# 保存圖片
wc.to_file(r"wordcloud.png") # 按照設定的像素寬高度保存繪制好的詞云圖,比下面程式顯示更清晰
# 4.顯示圖片
# 指定所繪圖名稱
plt.figure("WordCloud_test1")
# 以圖片的形式顯示詞云
plt.imshow(wc)
# 關閉影像坐標系
plt.axis("off")
plt.show()

基礎案例(中文詞云)
jieba
先來了解一下jieba這個庫吧,
精確模式(最常用,只會這個就行):每個字只用一遍,不存在冗余詞匯,jieba.cut('XXX')
全模式:把每個字可能形成的詞匯都提取出來,存在冗余,jieba.cut('XXX',cut_all=True)
搜索引擎模式:將全模式分詞的結果從短到長排列好,jieba.cut_for_search('XXX')
精確模式是最常用的,
富強民主
找了張地圖,整了這么一張:

文本內容:富強、民主、文明、和諧、自由、平等、公正、法制、愛國、敬業、誠信、友善
圖片:

代碼展示:
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS
# Read the whole text.
file = open('test.txt',encoding='utf-8').read()
##進行分詞
default_mode =jieba.cut_for_search(file)
text = " ".join(default_mode)
alice_mask = np.array(Image.open("1.png"))
stopwords = set(STOPWORDS)
stopwords.add("said")
wc = WordCloud(
#設定字體,不指定就會出現亂碼,這個字體檔案需要下載
font_path=r'STKAITI.TTF',
background_color="white",
max_words=2000,
mask=alice_mask,
# contour_width=1, 加這么一行可以繪制輪廓線,不過這個輪廓畫的不太準,就不畫了,
stopwords=stopwords)
# generate word cloud
wc.generate(text)
# store to file
wc.to_file("qq_result.jpg")
# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()
騷操作
我也不知道這么說,就,看圖吧,
騷操作一:透明影像

像這種的,在一個大圖里面有某一組成部分是詞云的,怎么弄呢?
我起初也納悶兒,直到我看到了這張圖:

我掙扎了一下午,沒整出透明圖片,那我就把思路放這兒吧,都給我整煩了,

就這樣吧,找到了一個網站,,,
太棒了,怎么會有這么好的人呢!!!
騷操作二:字體顏色按影像顯示

import jieba as jb
import wordcloud as wc
from PIL import Image
import numpy as np #1 imread常報錯,用numpy和pil替換掉了,
mask=np.array(Image.open('孫悟空.jpg'))
f = open('test.txt','r',encoding='utf-8')
image_colors = wc.ImageColorGenerator(mask) #2 按圖片顏色顯示字體顯色
#寫出不要出現的詞組
exclude={'沒有','什么','這樣','這種','這里','不會','一些','這個','仍然','不是',\
'我們','你們','他們','它們','因為','因而','所以','如果','那么',\
'如此','只是','但是','就是','這是','那是','而是','而且','雖然',\
'自己','知道','可以','看到','那兒','問題','一會兒','一點','現在','兩個',\
'這些','有些','然后','已經','于是','一種','一個','一樣','時候',\
'三個','說道','可是','地方','怎么','這兒','突然','可能','甚至','還是',\
'那些','還有','只有',\
}
t = f.read()
f.close()
ls = jb.lcut(t)
txt = ' '.join(ls)
w = wc.WordCloud(font_path = 'STXINGKA.TTF',max_words=2000,\
min_font_size=1,max_font_size=30,mask=mask,width = 1000,\
height = 1000,background_color = 'white',stopwords=exclude,\
color_func=image_colors)#3 圖片顏色加到引數里
w.generate(txt)
w.to_file('孫悟空.png')
騷操作三:給微信好友的個性簽名做一張詞云(半成品)
我沒有失敗,只是暫時,還沒成功,
# 11號詞云:繪制你的微信好友個性簽名詞云
# B站專欄:同濟子豪兄 2019-05-23
# 匯入微信庫ichat,中文分詞庫jieba
import itchat
import jieba
# 先登錄微信,跳出登陸二維碼
itchat.login()
tList = []
# 獲取好友串列
friends = itchat.get_friends(update=True)
# 構建所有好友個性簽名組成的大串列tList
for i in friends:
# 獲取個性簽名
signature = i["Signature"]
if 'emoji' in signature:
pass
else:
tList.append(signature)
text = " ".join(tList)
# 對個性簽名進行中文分詞
wordlist_jieba = jieba.lcut(text, cut_all=True)
wl_space_split = " ".join(wordlist_jieba)
# 匯入imageio庫中的imread函式,并用這個函式讀取本地圖片,作為詞云形狀圖片
import imageio
mk = imageio.imread("chinamap.png")
# 匯入詞云制作庫wordcloud
import wordcloud
# 構建并配置詞云物件w,注意要加scale引數,提高清晰度
my_wordcloud = wordcloud.WordCloud(background_color='white',
width=1000,
height=700,
font_path='msyh.ttc',
max_words=2000,
mask=mk,
scale=20)
my_wordcloud.generate(wl_space_split)
nickname = friends[0]['NickName']
filename = "output11-{}的微信好友個性簽名詞云圖.png".format(nickname)
my_wordcloud.to_file(filename)
# 顯示詞云圖片
import matplotlib.pyplot as plt
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
print('程式結束')
騷操作四:魔童降世
為什么這么早就出這個啦?
啊,不是沒東西了,是后面的東西更實用,
說真的,這個用Python我還真不知道該怎么處理,
我大概懂了一點,要用文字環繞,,,
但是wordcloud好像不支持吧,,,
等著吧,寒假兩個月時間我再去掙扎一下,
現在,只能用人家的工具了,工具及教程在此,速來

其實人家工具也挺好的(軟骨頭)
一年也不貴,
既然是用工具,我就不幫他們做那么多事兒了,教程他們自己提供,我把圖給你們吧、

哎,本來要再整點硬菜(情感分析),但是調研之后,發現,此物非我寒假不可得,
這篇詞云昨天就允諾給我的粉絲群了,結果拖到了今天,實在抱歉,不能再拖了,
然后呢,我還要對這篇里面的坑說一句:我一定會回來的!!!
好了,我先去復習了,明天下午就烤了,
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/245710.html
標籤:其他
上一篇:聽說你想提高開發效率,快來看看這些idea最實用的快捷鍵,讓你的開發如虎添翼!
下一篇:圖論模板,不定期更新
