主頁 > 軟體設計 > WordCloud:連份好點的詞云資料都找不到?我什么時候受過這氣!!!

WordCloud:連份好點的詞云資料都找不到?我什么時候受過這氣!!!

2021-01-07 11:00:10 軟體設計

在這里插入圖片描述

好看嗎?
好看就對了,不是你做的,
也不是我做的,,,,

但是吧,跟我走,不后悔,

文章目錄

    • 嘮嗑兩句
    • 基礎知識
      • 依賴項
      • 常用API
      • 其他常用函式
    • 基礎案例(英文詞云)
    • 基礎案例(中文詞云)
      • jieba
      • 富強民主
    • 騷操作
      • 騷操作一:透明影像
      • 騷操作二:字體顏色按影像顯示
      • 騷操作三:給微信好友的個性簽名做一張詞云(半成品)
      • 騷操作四:魔童降世

嘮嗑兩句

我這記性不太好,有些話現在不說,寫著寫著就忘了,還是先說了吧,

就這種東西啊,我這種沒專業學過設計的人是設計不出來多好看的,是吧,倒也不是什么審美不好啊,就是純粹沒見過什么好看的詞云,談何想象的空間呢?

就當說我一直以來對詞云的認知就停留在了用文字平常一個圖案,但是我萬萬沒想到,還能讓文字環繞一個圖案(見上面那個哪吒),

所以啊,第一步,也是最重要的一步,叫做:知道自己要設計什么樣的詞云,

所以現在我們先打開百度,搜一下詞云相關的,你喜歡什么關鍵詞就選什么關鍵詞,五分鐘后再回來,

技術都是可以學的,眼界不行,

我去兜兜轉轉了40分鐘,好,我回來了,一會兒看我能做幾個出來,


基礎知識

基礎咱也不多廢話,直接上代碼和API,

依賴項

from PIL import Image

# 下面四個要自備
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS

懂得都懂,該下載的都下載好,

常用API

我舉個栗子再看API吧,不然給繞暈了,

'寫了什么不重要,看格式'

wc = WordCloud(
    #設定字體,不指定就會出現亂碼,這個字體檔案需要下載
    font_path=r'STKAITI.TTF',
    background_color="white",
    max_words=2000,
    mask=alice_mask,
    stopwords=stopwords)
# generate word cloud
wc.generate(text)

以下是WordCloud函式的引數:

font_path : string  #字體路徑,需要展現什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf'
# 關于這個字體啊,我要插個嘴進來:去百度一下自己電腦上的字體目錄在哪里,因為不同系統的目錄是不一樣的,
# 找到字體目錄之后,復制,復制,復制到當前工程專案下,因為多半在系統盤,Python很可能沒有權限去訪問,反正我是沒有,
# 然后,那個后綴也不一定是ttf,具體情況具體分析,復制過去就知道是什么后綴了,我的就是TTF ,

width : int (default=400) #輸出的畫布寬度,默認為400像素
 
height : int (default=200) #輸出的畫布高度,默認為200像素
 
prefer_horizontal : float (default=0.90) #詞語水平方向排版出現的頻率,默認 0.9 (所以詞語垂直方向排版出現頻率為 0.1 )
# 后面我們做比較規矩的詞云的時候就要用到這個了

mask : nd-array or None (default=None) #如果引數為空,則使用二維遮罩繪制詞云,如果 mask 非空,設定的寬高值將被忽略,遮罩形狀被 mask 取代,除全白(#FFFFFF)的部分將不會繪制,其余部分會用于繪制詞云,如:bg_pic = imread('讀取一張圖片.png'),背景圖片的畫布一定要設定為白色(#FFFFFF),然后顯示的形狀為不是白色的其他顏色,可以用ps工具將自己要顯示的形狀復制到一個純白色的畫布上再保存,就ok了,
# 開局那個哪吒明顯不能這么搞,但是現在我也還不知道要怎么搞,不急,
 
scale : float (default=1) #按照比例進行放大畫布,如設定為1.5,則長和寬都是原來畫布的1.5倍
 
min_font_size : int (default=4) #顯示的最小的字體大小
 
font_step : int (default=1) #字體步長,如果步長大于1,會加快運算但是可能導致結果出現較大的誤差
 
max_words : number (default=200) #要顯示的詞的最大個數
 
stopwords : set of strings or None #設定需要屏蔽的詞,如果為空,則使用內置的STOPWORDS
 
background_color : color value (default=”black”) #背景顏色,如background_color='white',背景顏色為白色
 
max_font_size : int or None (default=None) #顯示的最大的字體大小
 
mode : string (default=”RGB”) #當引數為“RGBA”并且background_color不為空時,背景為透明
# 報錯:OSError: cannot write mode RGBA as JPEG
# 報錯原因:RGBA意思是紅色,綠色,藍色,Alpha的色彩空間,Alpha指透明度,而JPG不支持透明度
# 解決方法:要么丟棄Alpha,要么保存為.png檔案
 
relative_scaling : float (default=.5) #詞頻和字體大小的關聯性
 
color_func : callable, default=None #生成新顏色的函式,如果為空,則使用 self.color_func
 
regexp : string or None (optional) #使用正則運算式分隔輸入的文本
 
collocations : bool, default=True #是否包括兩個詞的搭配
 
colormap : string or matplotlib colormap, default=”viridis” #給每個單詞隨機分配顏色,若指定color_func,則忽略該方法
 
random_state : int or None  #為每個單詞回傳一個PIL顏色

其他常用函式

fit_words(frequencies)  #根據詞頻生成詞云

generate(text)  #根據文本生成詞云

generate_from_frequencies(frequencies[, ...])   #根據詞頻生成詞云

generate_from_text(text)    #根據文本生成詞云

process_text(text) #將長文本分詞并去除屏蔽詞(此處指英語,中文分詞還是需要自己用別的庫先行實作,使用上面的 fit_words(frequencies))

recolor([random_state, color_func, colormap])   #對現有輸出重新著色,重新上色會比重新生成整個詞云快很多

to_array()  #轉化為 numpy array

to_file(filename)   #輸出到檔案
wordcloud.random_color_func(
    word=None,
????font_size=None,
    position=None,
????orientation=None,
    font_path=None,
    random_state=None
)
'''
隨機色調顏色生成,
默認著色方法,這只是選擇值為80%和亮度為50%的隨機色相,
??引數:
????random_state: 隨機種子
????其余引數被忽略,
'''

wordcloud.get_single_color_func(color)
# 創建一個顏色函式,該函式回傳單個色調和飽和度,不同的值(HSV),可接受的值是PIL / Pillow可以使用的顏色字串,

基礎案例(英文詞云)

import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 1.讀入txt文本資料
text = open(r'test.txt', "r",encoding = 'utf-8').read()
# 檔案是網上隨便找的,https://zhidao.baidu.com/question/248186919.html

# 2.生成詞云圖,這里需要注意的是WordCloud默認不支持中文
# 無自定義背景圖:需要指定生成詞云圖的像素大小,默認背景顏色為黑色,統一文字顏色:mode='RGBA'
wc = WordCloud(
        # 設定背景色
        background_color='white',
        # 設定背景寬
        width=500,
        # 設定背景高
        height=350,
        # 最大字體
        max_font_size=50,
        # 最小字體
        min_font_size=10,
        mode='RGBA',
        #colormap='pink'    # 太丑了
)
# 產生詞云
wc.generate(text)
# 保存圖片
wc.to_file(r"wordcloud.png") # 按照設定的像素寬高度保存繪制好的詞云圖,比下面程式顯示更清晰
# 4.顯示圖片
# 指定所繪圖名稱
plt.figure("WordCloud_test1")
# 以圖片的形式顯示詞云
plt.imshow(wc)
# 關閉影像坐標系
plt.axis("off")
plt.show()

在這里插入圖片描述

基礎案例(中文詞云)

jieba

先來了解一下jieba這個庫吧,

精確模式(最常用,只會這個就行):每個字只用一遍,不存在冗余詞匯,jieba.cut('XXX')

全模式:把每個字可能形成的詞匯都提取出來,存在冗余,jieba.cut('XXX',cut_all=True)

搜索引擎模式:將全模式分詞的結果從短到長排列好,jieba.cut_for_search('XXX')

精確模式是最常用的,

富強民主

找了張地圖,整了這么一張:
在這里插入圖片描述

文本內容:富強、民主、文明、和諧、自由、平等、公正、法制、愛國、敬業、誠信、友善

圖片:
在這里插入圖片描述

代碼展示:

from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS

# Read the whole text.
file = open('test.txt',encoding='utf-8').read()
##進行分詞
default_mode =jieba.cut_for_search(file)
text = " ".join(default_mode)
alice_mask = np.array(Image.open("1.png"))
stopwords = set(STOPWORDS)
stopwords.add("said")
wc = WordCloud(
    #設定字體,不指定就會出現亂碼,這個字體檔案需要下載
    font_path=r'STKAITI.TTF',
    background_color="white",
    max_words=2000,
    mask=alice_mask,
    # contour_width=1, 加這么一行可以繪制輪廓線,不過這個輪廓畫的不太準,就不畫了,
    stopwords=stopwords)
# generate word cloud
wc.generate(text)

# store to file
wc.to_file("qq_result.jpg")

# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

騷操作

我也不知道這么說,就,看圖吧,

騷操作一:透明影像

在這里插入圖片描述

像這種的,在一個大圖里面有某一組成部分是詞云的,怎么弄呢?

我起初也納悶兒,直到我看到了這張圖:
在這里插入圖片描述

我掙扎了一下午,沒整出透明圖片,那我就把思路放這兒吧,都給我整煩了,

在這里插入圖片描述

就這樣吧,找到了一個網站,,,


太棒了,怎么會有這么好的人呢!!!


騷操作二:字體顏色按影像顯示

在這里插入圖片描述

import jieba as jb
import wordcloud as wc
from PIL import Image
import numpy as np             #1  imread常報錯,用numpy和pil替換掉了,
mask=np.array(Image.open('孫悟空.jpg'))
f = open('test.txt','r',encoding='utf-8')
image_colors = wc.ImageColorGenerator(mask)    #2 按圖片顏色顯示字體顯色
#寫出不要出現的詞組
exclude={'沒有','什么','這樣','這種','這里','不會','一些','這個','仍然','不是',\
        '我們','你們','他們','它們','因為','因而','所以','如果','那么',\
        '如此','只是','但是','就是','這是','那是','而是','而且','雖然',\
        '自己','知道','可以','看到','那兒','問題','一會兒','一點','現在','兩個',\
        '這些','有些','然后','已經','于是','一種','一個','一樣','時候',\
        '三個','說道','可是','地方','怎么','這兒','突然','可能','甚至','還是',\
        '那些','還有','只有',\
}

t = f.read()
f.close()
ls = jb.lcut(t)
txt = ' '.join(ls)
w = wc.WordCloud(font_path = 'STXINGKA.TTF',max_words=2000,\
                 min_font_size=1,max_font_size=30,mask=mask,width = 1000,\
    height = 1000,background_color = 'white',stopwords=exclude,\
                 color_func=image_colors)#3 圖片顏色加到引數里
w.generate(txt)
w.to_file('孫悟空.png')

騷操作三:給微信好友的個性簽名做一張詞云(半成品)

我沒有失敗,只是暫時,還沒成功,

# 11號詞云:繪制你的微信好友個性簽名詞云
# B站專欄:同濟子豪兄 2019-05-23

# 匯入微信庫ichat,中文分詞庫jieba
import itchat
import jieba

# 先登錄微信,跳出登陸二維碼
itchat.login()
tList = []
# 獲取好友串列
friends = itchat.get_friends(update=True)

# 構建所有好友個性簽名組成的大串列tList
for i in friends:
    # 獲取個性簽名
    signature = i["Signature"]
    if 'emoji' in signature:
        pass
    else:
        tList.append(signature)
text = " ".join(tList)

# 對個性簽名進行中文分詞
wordlist_jieba = jieba.lcut(text, cut_all=True)
wl_space_split = " ".join(wordlist_jieba)

# 匯入imageio庫中的imread函式,并用這個函式讀取本地圖片,作為詞云形狀圖片
import imageio
mk = imageio.imread("chinamap.png")

# 匯入詞云制作庫wordcloud
import wordcloud

# 構建并配置詞云物件w,注意要加scale引數,提高清晰度
my_wordcloud = wordcloud.WordCloud(background_color='white',
                                   width=1000,
                                   height=700,
                                   font_path='msyh.ttc',
                                   max_words=2000,
                                   mask=mk,
                                   scale=20)
my_wordcloud.generate(wl_space_split)

nickname = friends[0]['NickName']
filename = "output11-{}的微信好友個性簽名詞云圖.png".format(nickname)
my_wordcloud.to_file(filename)

# 顯示詞云圖片
import matplotlib.pyplot as plt
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
print('程式結束')

騷操作四:魔童降世

為什么這么早就出這個啦?
啊,不是沒東西了,是后面的東西更實用,

說真的,這個用Python我還真不知道該怎么處理,

我大概懂了一點,要用文字環繞,,,
但是wordcloud好像不支持吧,,,

等著吧,寒假兩個月時間我再去掙扎一下,

現在,只能用人家的工具了,工具及教程在此,速來

在這里插入圖片描述

其實人家工具也挺好的(軟骨頭)
一年也不貴,

既然是用工具,我就不幫他們做那么多事兒了,教程他們自己提供,我把圖給你們吧、
在這里插入圖片描述


哎,本來要再整點硬菜(情感分析),但是調研之后,發現,此物非我寒假不可得,

這篇詞云昨天就允諾給我的粉絲群了,結果拖到了今天,實在抱歉,不能再拖了,

然后呢,我還要對這篇里面的坑說一句:我一定會回來的!!!


好了,我先去復習了,明天下午就烤了,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/245710.html

標籤:其他

上一篇:聽說你想提高開發效率,快來看看這些idea最實用的快捷鍵,讓你的開發如虎添翼!

下一篇:圖論模板,不定期更新

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more