從2010年我來到CSDN，再到2013年我撰寫第一篇博客，轉眼已經過去十年，590篇原創文章，786萬次閱讀量，19萬位關注博友，這一個個數字的背后，是我3000多天的默默付出，也是我寫下近千萬文字的心血，

有人說，世間一切，都是遇見，都是機緣，是啊，因為CSDN，我與很多人成為了好朋友，雖未謀面，但這種默默鼓勵、相互分享的感覺真好；因為CSDN，我人生進度條八分之一（十年）的許多故事在這里書寫，筆耕不輟，也算不得辜負時光吧；因為CSDN，我更珍惜每一位博友、每一位朋友、每一位老師，解答大家的問題，鼓勵考研或找作業失敗的人繼續戰斗；因為CSDN，我認識了女神，并分享了許多我們一家的故事，

東西湖的夜很靜，博士的征途很辛苦，遠方的親人例外思念，
為什么我要寫這樣一篇文章呢？一方面，感謝讀者這十年的陪伴和包容，不論我分享什么內容，你們給予我的都是鼓勵和感動；另一方面，因為改變，接下來我將短暫告別CSDN一段時間（技術更新放緩），好好沉下心來去讀論文，去做做科研，

同時，這篇文章非常硬核，會利用Python文本挖掘詳細分享這十年的故事，也算是為文本挖掘初學者和寫相關論文的讀者一些福利，真誠的對所有人說一聲感謝，感恩這十年的陪伴，不負遇見，不負時光，請記住一個叫Eastmount的分享者，此生足矣~

在這里插入圖片描述

文章目錄

一.憶往昔分享歲月
二.硬核-CSDN博客文本挖掘
- 1.資料爬取
- 2.計量統計和可視化分析
- 3.核心詞統計及詞云分析
- 4.LDA主題挖掘
- 5.層次聚類主題樹狀圖
- 6.社交網路分析
- 7.博客情感分析
- 8.博客主題演化分析
- 9.拓展知識
三.總結

一.憶往昔分享歲月

關于作者與CSDN這十年的故事，可以閱讀這篇文章：

我與CSDN的這十年——筆耕不輟，青春熱血

十年，轉瞬即逝，我從青蔥少年成長為了中年大叔，或許，對其他人來說寫博客很平淡，但對我來說，它可能是我這十年最重要的決定和堅守之一，

十年，不負遇見，不負自己，不負時光，感恩所有人的陪伴，因為有你們，人生路上我不孤單，幸好，這十年來，我可以摸著自己的良心說，每一篇博客我都在很認真的撰寫，雕琢，都在用萬字長文書寫下我的滿腔熱血，

下圖是我這十年分享博客按月統計的數量，從2015年找作業分享一次高峰，到如今讀博，從零學習安全知識并分享又是一座高峰，

在這里插入圖片描述

下圖是這十年我在CSDN撰寫博客的主題演化圖，整個十年，我經歷了四個階段，

本科階段：2013年3月至2014年8月
當時以本科課程為主，包括C#、網路開發、課程基礎知識等等，
碩士階段：2014年9月至2016年8月
該階段研究生方向為NLP和知識圖譜，因此撰寫了大量的Python基礎知識，包括Android、C#、面試和LeetCode、網站開發等等，
作業階段：2016年9月至2019年7月
該階段作者初入職場，選擇回到貴州當一名普通的大學教師，并分享了《Python資料挖掘》《網站開發》等課程，撰寫《Python人工智能》《Python影像處理》等專欄，
博士階段：2019年9月至2021年4月
該階段作者再次回傳校園，離別家鄉親人選擇讀博，并換了大方向，轉而學習系統安全和網路安全，大量安全知識從零學起，《網路安全自學篇》《網路安全提高班》《系統安全和惡意代碼檢測》專欄也開啟，

在這里插入圖片描述

有許多人問我，“你分享快樂嗎？”
快樂，其實每寫一篇博客我的內心都非常喜悅的，每看到讀者的一個點贊或評論，我真的開心得像一個小孩，

那為什么還要短暫消失呢？
因為畢業，因為想家，因為想他（她），我相信，大多數分享者都和我有同樣的心情，分享知識的魅力讓人久久不能忘懷，但每個階段都需要做每個階段的事，遠方的親人尤為思戀，經過我反復思考，所以我決定短暫放下技術博客的撰寫，轉而選擇論文研究，

在這里插入圖片描述

短暫的消失，并不意味著不分享，
而接下來90%的分享都將與論文和科研技術相關，并且每個月不再PUSH自己寫文，我不知道接下來的幾年，我究竟能做到什么程度，我也不能保證能否發一篇高質量的論文，但我會去拼搏，會去戰斗，會去享受，況且，這十年走來，我從來不認為自己是個聰明的人，比我優秀的人太多太多，我更喜歡的是默默撰寫，默默經歷，陪著大家一起成長，別人稱贊我博客的時候，我更多的回復是“都是時間熬出來的”，也確實是時間熬出來的，只是寫了3012天，

但我是真的享受啊，享受在CSDN所分享的一切，享受與每一位博友的相遇相識，享受每一位朋友的祝福與鼓勵，我感恩的寫下590篇文章，65個專欄，千萬文字和代碼，也勉強可以說上一句“不負遇見，不負青春，此生足矣”，

在這里插入圖片描述

下圖展示了這十年我寫的博客涉及的各個方向，這些年，我一直都知道學得太雜，而沒有深入，就希望博士期間能深入某個領域，博一博二安全基礎知識也學了很多，所以接下來是時候進入第五個階段，開啟論文的閱讀和撰寫以及實驗復現，也希望博友們理解，更期待您的陪伴，

在這里插入圖片描述

沙子是握不住的，時間也是，
但當我付出之后，我可以隨手把它揚起，我可以把在時間中發生的點滴記錄，比如技術、又如愛情，讀博苦嗎？苦，無數個寂靜的夜都需要我們去熬，去拼，但有的人更苦，比如家里的另一位，接下來三年，我希望自己始終記住，我為什么選擇來到這里，選擇來到東西湖，也是時候沉下心來去學習論文和做實驗了，技術分享該放就放，雖然不舍，握不住的沙，就隨手揚了它；即便回到原點，我也沒有失去什么，況且這段經歷也是人生的談資啊，也希望每一位博友都珍惜當下，都去做自己喜歡的事情，去經歷，

在這里插入圖片描述

我看著路，夢的入口有點窄，這或許是最美麗的意外，
這篇文章我將使用在CSDN的第一次群發，還請見諒，下一次應該是2024年我博士畢業那天，再次感謝所有人的陪伴，一個好的分享者需要不斷去學習新知識，前沿技術再總結給大家，所以我們應該尊重每一位創作者的果實，同時，我在這里向所有讀者保證，三年之后，我將帶著新的理解，新的感受，去分享更優質的文章，去回饋所有讀者，幫助更多初學者入門，或許手癢我也會寫一篇非常詳細的總結吧，

再次感謝大家，希望大家記住CSDN有一位叫Eastmount的作者，一位叫楊秀璋的博主，如果能記住娜璋和小珞一家就更開心了，哈哈~愛你們喔，困惑或遇到困難的讀者，可以加我微信共同前行，

在這里插入圖片描述

我們的故事都還在續寫，你們的陪伴依然繼續，
最后，熟悉我的讀者知道我開了三個付費專欄，常常有讀者因在校讀書或經濟拮據，因此我在文中多次提到可以私聊我給全文，其實我早已把這些文章開源到了github，我更希望每一位讀者都能從文章中學到知識，希望覺得文章好且手里輕松的給個9塊打賞，奶粉錢就夠了，在此，我也把這三個地址分享給需要的讀者吧！且行且珍惜，購買也歡迎喔，

Python影像處理
https://github.com/eastmountyxz/CSDNBlog-ImageProcessing
網路安全自學篇
https://github.com/eastmountyxz/CSDNBlog-Security-Based
Python人工智能
https://github.com/eastmountyxz/CSDNBlog-AI-for-Python

在這里插入圖片描述

給想學技術的說聲抱歉，大家記得等我喔！江湖再見，感恩同行，

在這里插入圖片描述

二.硬核-CSDN博客文本挖掘

之前我給學安全的讀者一波福利，告訴大家安全學習路線及CSDN優秀的博主，

那些年我在CSDN追過的安全白帽大佬，respect

這里，我最后再給Python文本挖掘讀者一波福利，希望您喜歡~這篇文章思路大家可以借鑒，但不要直接拿去寫論文喔！但思路已經非常清晰，大家一定動手撰寫代碼，

1.資料爬取

這里不介紹具體代碼，保護CSDN原創，但會給出對應的核心知識點，建議讀者結合自己的方向去抓取文本知識，

核心擴展包：

import requests
from lxml import etree
import csv

核心流程：

解決headers問題
解決翻頁問題
審查元素分析DOM樹結構
定位節點采用Xpath分析
分別賺取標題、URL、時間、閱讀和評論數量
詳情頁面抓取

在這里插入圖片描述

爬蟲輸出結果，建議學會打樁輸出（多用print），

在這里插入圖片描述

整理后的結果如下圖所示，內容輸出到CSV存盤，

在這里插入圖片描述

2.計量統計和可視化分析

(1) 按小時分析作者撰寫習慣
首先，我們來分析作者“Eastmount”的撰寫博客習慣，同時利用Matplotlib和PyEcharts繪制圖形，發現Echarts繪制的圖形更好看，由圖可知，該作者長期在深夜和下午撰寫博客，

在這里插入圖片描述

源代碼如下：

# encoding:utf-8
"""
By：Easmount CSDN 2021-04-19
"""
import re
import time
import csv
import pandas as pd
import numpy as np

#------------------------------------------------------------------------------
#第一步 讀取資料
dd = []   #日期
tt = []   #時間
with open("data.csv", "r", encoding="utf8") as csvfile:
    csv_reader = csv.reader(csvfile)
    k = 0
    for row in csv_reader:
        if k==0:      #跳過標題
            k = k + 1
            continue
        #獲取資料 2021-04-08 21:52:21
        value_date = row[4]
        value_time = row[5]
        hour = value_time.split(":")[0]
        hour = int(hour)
        dd.append(row[4])
        tt.append(hour)
        #print(row[4],row[5])
        #print(hour)
        k = k + 1
print(len(tt),len(dd))
print(dd)
print(tt)

#------------------------------------------------------------------------------
#第二步 統計不同小時的個數
from collections import Counter
cnt = Counter(tt)
print(cnt.items())  #dict_items
#字典按鍵排序
list_time = []
list_tnum = []
for i in sorted(cnt):
    print(i,cnt[i])
    list_time.append(i)
    list_tnum.append(cnt[i])

#------------------------------------------------------------------------------
#第三步 繪制柱狀圖
import matplotlib.pyplot as plt
N = 24
ind = np.arange(N)
width=0.35
plt.bar(ind, list_tnum, width, color='r', label='hour') 
plt.xticks(ind+width/2, list_time, rotation=40) 
plt.title("The Eastmount's blog is distributed by the hour")  
plt.xlabel('hour')  
plt.ylabel('numbers')  
plt.savefig('Eastmount-01.png',dpi=400)  
plt.show()

#------------------------------------------------------------------------------
#第四步 PyEcharts繪制柱狀圖

from pyecharts import options as opts
from pyecharts.charts import Bar
bar=(
    Bar()
        .add_xaxis(list_time)
        .add_yaxis("數量", list_tnum, color="blue")
        .set_global_opts(title_opts=opts.TitleOpts(
            title="Eastmount博客按小時分布", subtitle="hour"))
    )
bar.render('01-Eastmount博客按小時分布.html')

(2) 按月份統計博客
作者按月份撰寫博客如下圖所示，2015年找作業撰寫了大量LeetCode代碼，后續是讀博期間安全分享較多，

在這里插入圖片描述

源代碼如下：

# encoding:utf-8
"""
By：Easmount CSDN 2021-04-19
"""
import re
import time
import csv
import pandas as pd
import numpy as np

#------------------------------------------------------------------------------
#第一步 讀取資料
dd = []   #日期
tt = []   #時間
with open("data.csv", "r", encoding="utf8") as csvfile:
    csv_reader = csv.reader(csvfile)
    k = 0
    for row in csv_reader:
        if k==0:      #跳過標題
            k = k + 1
            continue
        #獲取資料 2021-04-08 21:52:21
        value_date = row[4]
        value_time = row[5]
        hour = value_time.split(":")[0]   #獲取小時
        hour = int(hour)
        month = value_date[:7]            #獲取月份
        dd.append(month)
        tt.append(hour)
        #print(row[4],row[5])
        #print(hour,month)
        print(month)
        k = k + 1
        #break
print(len(tt),len(dd))
print(dd)
print(tt)

#------------------------------------------------------------------------------
#第二步 統計不同日期的個數
from collections import Counter
cnt = Counter(dd)
print(cnt.items())  #dict_items
#字典按鍵排序
list_date = []
list_dnum = []
for i in sorted(cnt):
    print(i,cnt[i])
    list_date.append(i)
    list_dnum.append(cnt[i])

#------------------------------------------------------------------------------
#第三步 PyEcharts繪制柱狀圖
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.commons.utils import JsCode

line = (
    Line()
    .add_xaxis(list_date)
    .add_yaxis('數量', list_dnum, is_smooth=True,
               markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average")]),
               markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max"),
                                                       opts.MarkPointItem(type_="min")]))
    # 隱藏數字 設定面積
    .set_series_opts(
        areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
        label_opts=opts.LabelOpts(is_show=False))
    # 設定x軸標簽旋轉角度
    .set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30)), 
                     yaxis_opts=opts.AxisOpts(name='數量', min_=3), 
                     title_opts=opts.TitleOpts(title='Eastmount博客按日期分布'))        
    )
line.render('02-Eastmount博客按日期分布.html')

(3) 按星期統計博客
按星期統計如下，呼叫date.weekday()函式可以輸出對應的星期，周末作者更新稍微少一些，

在這里插入圖片描述

核心代碼如下：

# encoding:utf-8
"""
By：Easmount CSDN 2021-04-19
"""
import re
import time
import csv
import pandas as pd
import numpy as np
import datetime

#定義星期函式
def get_week_day(date):
    week_day_dict = {
        0 : '星期一',
        1 : '星期二',
        2 : '星期三',
        3 : '星期四',
        4 : '星期五',
        5 : '星期六',
        6 : '星期天'
    }
    day = date.weekday()
    return week_day_dict[day]

#------------------------------------------------------------------------------
#第一步 讀取資料

dd = []   #日期
tt = []   #時間
ww = []   #星期
with open("data.csv", "r", encoding="utf8") as csvfile:
    csv_reader = csv.reader(csvfile)
    k = 0
    for row in csv_reader:
        if k==0:      #跳過標題
            k = k + 1
            continue
        #獲取資料 2021-04-08 21:52:21
        value_date = row[4]
        value_time = row[5]
        hour = value_time.split(":")[0]   #獲取小時
        hour = int(hour)
        month = value_date[:7]            #獲取月份
        dd.append(month)
        tt.append(hour)

        #獲取星期
        date = datetime.datetime.strptime(value_date, '%Y-%m-%d').date()
        week = get_week_day(date)
        ww.append(week)
        #print(date,week)
        k = k + 1
print(len(tt),len(dd),len(ww))
print(dd)
print(tt)
print(ww)

#------------------------------------------------------------------------------
#第二步 統計不同日期的個數
from collections import Counter
cnt = Counter(ww)
print(cnt.items())  #dict_items
#字典按鍵排序
list_date = ['星期一','星期二','星期三','星期四','星期五','星期六','星期天']
list_dnum = [0,0,0,0,0,0,0]

for key,value in cnt.items():
    k = 0
    while k<len(list_date):
        if key==list_date[k]:
            list_dnum[k] = value
            break
        k = k + 1
print(list_date,list_dnum)

#------------------------------------------------------------------------------
#第三步 PyEcharts繪制柱狀圖
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.commons.utils import JsCode
bar=(
    Bar()
        .add_xaxis(list_date)
        .add_yaxis("數量", list_dnum, color='pink')
        .set_global_opts(title_opts=opts.TitleOpts(
            title="Eastmount博客按星期分布", subtitle="week"))
    )
bar.render('03-Eastmount博客按星期分布.html')

3.核心詞統計及詞云分析

詞云分析非常適合初學者，這里作者也簡單分享核心主題詞統計和詞云分析的程序，

(1) 統計核心關鍵詞及詞頻
輸出結果如下圖所示：

在這里插入圖片描述

代碼如下：

# coding=utf-8
"""
By：Easmount CSDN 2021-04-19
"""
import jieba
import re
import time
import csv
from collections import Counter

#------------------------------------中文分詞----------------------------------
cut_words = ""
all_words = ""
stopwords = ["[", "]", "）", "（", ")", "(", "【", "】",
             ".", "、", "-", "—", ":", "：", "《", "》",
             "的", "和", "之", "及", "“", "”", "？", "?"]

#匯入自定義詞典
#jieba.load_userdict("dict.txt")

f = open('06-data-fenci.txt', 'w')

with open("data.csv", "r", encoding="utf8") as csvfile:
    csv_reader = csv.reader(csvfile)
    k = 0
    for row in csv_reader:
        if k==0:      #跳過標題
            k = k + 1
            continue
        #獲取資料
        title = row[1]
        title = title.strip('\n')
        #print(title)
        #分詞
        cut_words = ""
        seg_list = jieba.cut(title,cut_all=False)
        for seg in seg_list:
            if seg not in stopwords:
                cut_words += seg + " "
        #cut_words = (" ".join(seg_list))
        f.write(cut_words+"\n")
        all_words += cut_words
        k = k + 1
f.close()
#輸出結果
all_words = all_words.split()
print(all_words)

#------------------------------------詞頻統計---------------------------------- 
c = Counter()
for x in all_words:
    if len(x)>1 and x != '\r\n':
        c[x] += 1
#輸出詞頻最高的前10個詞
print('\n詞頻統計結果：')
for (k,v) in c.most_common(10):
    print("%s:%d"%(k,v))
#存盤資料
name ="06-data-word.csv"
fw = open(name, 'w', encoding='utf-8')
i = 1
for (k,v) in c.most_common(len(c)):
    fw.write(str(i)+','+str(k)+','+str(v)+'\n')
    i = i + 1
else:
    print("Over write file!")
    fw.close()

(2) PyEcharts詞云可視化
輸出結果如下圖所示，出現詞頻越高的單詞顯示越大、越鮮艷，

在這里插入圖片描述

代碼如下：

# coding=utf-8
"""
By：Easmount CSDN 2021-04-19
"""
import jieba
import re
import time
import csv
from collections import Counter

#------------------------------------中文分詞----------------------------------
cut_words = ""
all_words = ""
stopwords = ["[", "]", "）", "（", ")", "(", "【", "】",
             "01", "02", "03", "04", "05", "06", "07",
             "08", "09", "什么"]
f = open('06-data-fenci.txt', 'w')

with open("data.csv", "r", encoding="utf8") as csvfile:
    csv_reader = csv.reader(csvfile)
    k = 0
    for row in csv_reader:
        if k==0:      #跳過標題
            k = k + 1
            continue
        #獲取資料
        title = row[1]
        title = title.strip('\n')
        #print(title)
        #分詞
        cut_words = ""
        seg_list = jieba.cut(title,cut_all=False)
        for seg in seg_list:
            if seg not in stopwords:
                cut_words += seg + " "
        #cut_words = (" ".join(seg_list))
        f.write(cut_words+"\n")
        all_words += cut_words
        k = k + 1
f.close()
#輸出結果
all_words = all_words.split()
print(all_words)

#------------------------------------詞頻統計---------------------------------- 
c = Counter()
for x in all_words:
    if len(x)>1 and x != '\r\n':
        c[x] += 1
#輸出詞頻最高的前10個詞
print('\n詞頻統計結果：')
for (k,v) in c.most_common(10):
    print("%s:%d"%(k,v))
#存盤資料
name ="06-data-word.csv"
fw = open(name, 'w', encoding='utf-8')
i = 1
for (k,v) in c.most_common(len(c)):
    fw.write(str(i)+','+str(k)+','+str(v)+'\n')
    i = i + 1
else:
    print("Over write file!")
    fw.close()

#------------------------------------詞云分析----------------------------------
from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

# 生成資料 word = [('A',10), ('B',9), ('C',8)] 串列+Tuple
words = []
for (k,v) in c.most_common(200):
    # print(k, v)
    words.append((k,v))
# 渲染圖
def wordcloud_base() -> WordCloud:
    c = (
        WordCloud()
        .add("", words, word_size_range=[20, 40], shape='diamond') #shape=SymbolType.ROUND_RECT
        .set_global_opts(title_opts=opts.TitleOpts(title='Eastmount十年博客詞云圖'))
    )
    return c

# 生成圖
wordcloud_base().render('05-Eastmount十年博客詞云圖.html')

4.LDA主題挖掘

LDA模型是文本挖掘或主題挖掘中非常經典的演算法，讀者可以閱讀作者之前的文章，詳細介紹該模型，這里，我們用它來對作者博客進行主題挖掘，設定的主題數為4，通常需要計算困惑度比較，

在這里插入圖片描述

同時計算各個主題對應的主題詞，如下所示，注意，建議讀者結合自己的文本進行相應的優化，這會得到更符合真實情況的主題詞，并且主題之間會存在相互交融的現象，比如安全系列博客，會有Python相關的滲透文章，

在這里插入圖片描述

完整代碼如下：

#coding: utf-8
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#---------------------  第一步 讀取資料(已分詞)  ----------------------
corpus = []

# 讀取預料 一行預料為一個檔案
for line in open('06-data-fenci.txt', 'r').readlines():
    corpus.append(line.strip())
        
#-----------------------  第二步 計算TF-IDF值  ----------------------- 
# 設定特征數
n_features = 2000
tf_vectorizer = TfidfVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words=['的','或','等','是','有','之','與','可以','還是','這里',
                                            '一個','和','也','被','嗎','于','中','最','但是','大家',
                                            '一下','幾天','200','還有','一看','300','50','哈哈哈哈',
                                             '“','”','，','，','？','、','；','怎么','本來','發現',
                                             'and','in','of','the','我們','一直','真的','18','一次',
                                           '了','有些','已經','不是','這么','一一','一天','這個','這種',
                                           '一種','位于','之一','天空','沒有','很多','有點','什么','五個',
                                           '特別'],
                                max_df = 0.99,
                                min_df = 0.002) #去除檔案內出現幾率過大或過小的詞匯
tf = tf_vectorizer.fit_transform(corpus)
print(tf.shape)
print(tf)

#-------------------------  第三步 LDA分析  ------------------------ 
from sklearn.decomposition import LatentDirichletAllocation
# 設定主題數
n_topics = 4
lda = LatentDirichletAllocation(n_components=n_topics,
                                max_iter=100,
                                learning_method='online',
                                learning_offset=50,
                                random_state=0)
lda.fit(tf)
# 顯示主題數 model.topic_word_
print(lda.components_)
# 幾個主題就是幾行 多少個關鍵詞就是幾列 
print(lda.components_.shape)                         
# 計算困惑度
print(u'困惑度：')
print(lda.perplexity(tf,sub_sampling = False))

# 主題-關鍵詞分布
def print_top_words(model, tf_feature_names, n_top_words):
    for topic_idx,topic in enumerate(model.components_):  # lda.component相當于model.topic_word_
        print('Topic #%d:' % topic_idx)
        print(' '.join([tf_feature_names[i] for i in topic.argsort()[:-n_top_words-1:-1]]))
        print("")
# 定義好函式之后 暫定每個主題輸出前20個關鍵詞
n_top_words = 20                                       
tf_feature_names = tf_vectorizer.get_feature_names()
# 呼叫函式
print_top_words(lda, tf_feature_names, n_top_words)

#------------------------  第四步 可視化分析  ------------------------- 
import pyLDAvis
import pyLDAvis.sklearn

#pyLDAvis.enable_notebook()
data = pyLDAvis.sklearn.prepare(lda,tf,tf_vectorizer)
print(data)
#顯示圖形
pyLDAvis.show(data)
pyLDAvis.save_json(data,' 06-fileobj.html')

5.層次聚類主題樹狀圖

層次聚類繪制的樹狀圖，也是文本挖掘領域常用的技術，它會將各個領域相關的主題以樹狀的形式進行顯示，這里輸出結果如下圖所示：

在這里插入圖片描述

注意，這里作者可以通過設定過濾來顯示樹狀圖顯示的主題詞數量，并進行相關的對比實驗，找到最優結果，

# -*- coding: utf-8 -*-
import os
import codecs
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import jieba
from sklearn import metrics
from sklearn.metrics import silhouette_score
from array import array
from numpy import *
from pylab import mpl
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
import matplotlib as mpl
from scipy.cluster.hierarchy import ward, dendrogram

#---------------------------------------加載語料-------------------------------------
text = open('06-data-fenci.txt').read()
print(text)
list1=text.split("\n")
print(list1)
print(list1[0])
print(list1[1])
mytext_list=list1

#控制顯示數量
count_vec = CountVectorizer(min_df=20, max_df=1000)  #最大值忽略
xx1 = count_vec.fit_transform(list1).toarray()
word=count_vec.get_feature_names() 
print("word feature length: {}".format(len(word)))
print(word)
print(xx1)
print(type(xx1))
print(xx1.shape)
print(xx1[0])

#---------------------------------------層次聚類-------------------------------------
titles = word
#dist = cosine_similarity(xx1)

mpl.rcParams['font.sans-serif'] = ['SimHei']

df = pd.DataFrame(xx1)
print(df.corr())
print(df.corr('spearman'))
print(df.corr('kendall'))
dist = df.corr()
print (dist)
print(type(dist))
print(dist.shape)

#define the linkage_matrix using ward clustering pre-computed distances
linkage_matrix = ward(dist) 
fig, ax = plt.subplots(figsize=(8, 12)) # set size
ax = dendrogram(linkage_matrix, orientation="right",
                p=20, labels=titles, leaf_font_size=12
                ) #leaf_rotation=90., leaf_font_size=12.
#show plot with tight layout
plt.tight_layout() 
#save figure as ward_clusters
plt.savefig('07-KH.png', dpi=200)
plt.show()

6.社交網路分析

社交網路分析常用于引文分析，文科領域有的成為文獻知識圖譜（和Google提出的知識圖譜或本體有區別），它也是文獻挖掘領域常用的技術手段，這里我們繪制社交網路關系圖譜如下所示，主要利用Gephi軟體，也推薦Neo4j或D3，可以看到作者十年的分享主要集中在四塊內容，它們又相互聯系，相輔相成，

網路安全
Python
逆向分析
基礎知識或編程技術

7.博客情感分析

情感分析主要采用SnowNLP實驗，也推薦大家使用大連理工大學情感詞典進行優化，這里推薦作者之前分析的文章，輸出結果如下圖所示：

在這里插入圖片描述

但是如果我們計算每天或每月新聞的總體情感分數，就會達到時間序列的情感分析圖，從而更好地對情感趨勢進行預測，文本挖掘或圖書情報領域中使用得也非常多，

在這里插入圖片描述

# -*- coding: utf-8 -*-
from snownlp import SnowNLP
import codecs
import os

#獲取情感分數
source = open("06-data-fenci.txt", "r", encoding='gbk')
fw = open("09-result.txt", "w", encoding="gbk")
line = source.readlines()
sentimentslist = []
for i in line:
    s = SnowNLP(i)
    #print(s.sentiments)
    sentimentslist.append(s.sentiments)

#區間轉換為[-0.5, 0.5]
result = []
i = 0
while i<len(sentimentslist):
    result.append(sentimentslist[i]-0.5)
    fw.write(str(sentimentslist[i]-0.5)+"\n")
    print(sentimentslist[i]-0.5, line[i].strip("\n"))
    i = i + 1
fw.close()

#可視化畫圖
import matplotlib.pyplot as plt
import numpy as np
plt.plot(np.arange(0, 598, 1), result, 'k-')
plt.xlabel('Number')
plt.ylabel('Sentiment')
plt.title('Analysis of Sentiments')
plt.show()

8.博客主題演化分析

最后是主題化驗研究，這里推薦大家閱讀南大核心相關的論文，其實主題演化通常分為：

主題新生
主題消亡
主題融合
主題孤獨

主題融合的計算方法各種各樣，大家可以尋找最適合自己論文的方法，比如詞頻、權重、O系數、關聯性分析等等，這里推薦大家使用Echarts繪制，作者的圖譜如下圖所示：

在這里插入圖片描述

注意，作者這里給出的代碼是另一個案例，但原理一樣，僅供參考，真實情況的計算程序更為復雜，計算演化系數通常為小數，

https://echarts.apache.org/examples/zh/index.html#chart-type-sankey

option = {
    series: {
        type: 'sankey',
        layout:'none',
        focusNodeAdjacency: 'allEdges',
        data: [
        {
            name: 'T1-競爭情報'
        },{
            name: 'T1-企業'
        },{
            name: 'T1-企業管理'
        }, {
            name: 'T1-情報研究'
        },{
            name: 'T1-競爭對手'
        },{
            name: 'T1-情報作業'
        },{
            name: 'T1-市場經濟'
        },{
            name: 'T2-競爭情報'
        },{
            name: 'T2-企業'
        },{
            name: 'T2-企業管理'
        },{
            name: 'T2-競爭情報系統'
        },{
            name: 'T2-競爭對手'
        },{
            name: 'T2-知識管理'
        },{
            name: 'T2-反競爭情報'
        },{
            name: 'T3-競爭情報'
        },{
            name: 'T3-企業'
        },{
            name: 'T3-競爭情報系統'
        },{
            name: 'T3-企業管理'
        },{
            name: 'T3-高校圖書館'
        },{
            name: 'T3-反競爭情報'
        },{
            name: 'T3-知識管理'
        },{
            name: 'T4-競爭情報'
        },{
            name: 'T4-企業'
        },{
            name: 'T4-大資料'
        },{
            name: 'T4-產業競爭情報'
        },{
            name: 'T4-競爭情報系統'
        },{
            name: 'T4-高校圖書館'
        },{
            name: 'T4-企業管理'
        }
        
        ],
        links: [{
            source: 'T1-競爭情報',
            target: 'T2-競爭情報',
            value: 10
        }, {
            source: 'T1-企業',
            target: 'T2-企業',
            value: 7
        }, {
            source: 'T1-企業管理',
            target: 'T2-企業管理',
            value: 6
        },{
            source: 'T1-情報研究',
            target: 'T2-競爭情報',
            value: 5
        },{
            source: 'T1-競爭對手',
            target: 'T2-競爭對手',
            value: 5
        },{
            source: 'T1-情報作業',
            target: 'T2-競爭情報',
            value: 3
        },{
            source: 'T1-市場經濟',
            target: 'T2-競爭情報',
            value: 3
        },{
            source: 'T1-競爭情報',
            target: 'T2-競爭情報系統',
            value: 5
        },{
            source: 'T1-競爭情報',
            target: 'T2-競爭情報系統',
            value: 3
        },{
            source: 'T1-競爭情報',
            target: 'T2-知識管理',
            value: 3
        },{
            source: 'T1-競爭情報',
            target: 'T2-反競爭情報',
            value: 3
        },
        
        {
            source: 'T2-競爭情報',
            target: 'T3-競爭情報',
            value: 10
        },{
            source: 'T2-企業',
            target: 'T3-企業',
            value: 7
        },{
            source: 'T3-競爭情報系統',
            target: 'T4-競爭情報',
            value: 3
        },{
            source: 'T2-企業管理',
            target: 'T3-企業管理',
            value: 6
        },{
            source: 'T2-競爭情報系統',
            target: 'T3-競爭情報系統',
            value: 5
        },{
            source: 'T2-競爭對手',
            target: 'T3-競爭情報',
            value: 5
        },{
            source: 'T2-知識管理',
            target: 'T3-知識管理',
            value: 3
        },{
            source: 'T2-反競爭情報',
            target: 'T3-反競爭情報',
            value: 3
        },{
            source: 'T2-競爭情報',
            target: 'T3-高校圖書館',
            value: 4
        },
        
        {
            source: 'T3-競爭情報',
            target: 'T4-競爭情報',
            value: 10
        },{
            source: 'T3-企業',
            target: 'T4-企業',
            value: 7
        },{
            source: 'T3-競爭情報',
            target: 'T4-大資料',
            value: 5
        },{
            source: 'T3-競爭情報',
            target: 'T4-產業競爭情報',
            value: 5
        },{
            source: 'T3-競爭情報系統',
            target: 'T4-競爭情報系統',
            value: 6
        },{
            source: 'T3-企業管理',
            target: 'T4-企業管理',
            value: 4
        },
        {
            source: 'T3-高校圖書館',
            target: 'T4-高校圖書館',
            value: 4
        },{
            source: 'T3-反競爭情報',
            target: 'T4-競爭情報',
            value: 3
        },{
            source: 'T3-知識管理',
            target: 'T4-競爭情報',
            value: 2
        }
        
        ]
    }
};

運行截圖如下所示：

在這里插入圖片描述

9.拓展知識

讀者還可以進行各種各樣的文本挖掘，比如：

命名物體識別
知識圖譜構建
智能問答處理
輿情事件預測
…

三.總結

最后用我的博客簽名結束這篇文章，“無知·樂觀·低調·謙遜·生活”，時刻告訴自己：無知的我需要樂觀的去求知，低調的底色是謙遜，而謙遜是源于對生活的通透，我們不止有作業、學習、編程，還要學會享受生活，人生何必走得這么匆忙，做幾件開心的事，寫幾篇系統的文，攜一位心愛的人，就很好！感恩CSDN，感謝你我的堅守和分享，這又何止是十年，

感恩所有讀者十年的陪伴，短暫消失只為更好的遇見，接下來三年，愿接納真實的自己，不自卑，不自傲；愿踏踏實實努力、認認真真生活，愛我所愛，無怨無悔，江湖再見，歡迎大家留言喔，共勉~

在這里插入圖片描述

(By:Eastmount 2021-04-28 晚上12點 http://blog.csdn.net/eastmount/ )

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/281411.html

標籤：AI

上一篇：用 Serverless 的方式，快速上線飛書機器人應用

下一篇：玩轉Linux系統之網路安全部署

致CSDN讀者的一些話：感恩這十年的陪伴，不負遇見，短暫消失

文章目錄

一.憶往昔分享歲月

二.硬核-CSDN博客文本挖掘

1.資料爬取

2.計量統計和可視化分析

3.核心詞統計及詞云分析

4.LDA主題挖掘

5.層次聚類主題樹狀圖

6.社交網路分析

7.博客情感分析

8.博客主題演化分析

9.拓展知識

三.總結