周榜冠軍了，可是怎么也開心不起來！做個小爬蟲對CSDN熱榜變冷榜的指標資料進行分析！-有解無憂

本周雖然有幸升到周榜冠軍，可是怎么也開心不起來！因為CSDN熱榜變冷榜，徹底涼了，

不開心之余還是動手做了個小爬蟲，分析一下各指標，資料確實有點不好看，稱它為“冷榜”也不算過分：

開始爬取熱榜，請稍候...
耗時：2.199401808s

【Top100指標統計】

瀏覽為0的： 3
評論為0的： 76
收藏為0的： 51
瀏覽評論0的： 3
三指標都0的： 2

瀏覽個位數的： 25
評論個位數的： 98
收藏個位數的： 86
無封面題圖的： 74

瀏覽>=100的： 18
評論>=10的： 1
收藏>=10的： 13

【Top50指標統計】

瀏覽為0的： 0
評論為0的： 36
收藏為0的： 22
瀏覽評論0的： 0
三指標都0的： 0

瀏覽個位數的： 15
評論個位數的： 49
收藏個位數的： 39
無封面題圖的： 38

瀏覽>=200的： 12
評論>=20的： 0
收藏>=20的： 8

開始爬取Top100網頁，請稍候(大約1分鐘)...
耗時：50.254692171s
下載失敗數：0

【Top100博客等級分布】

等級 1: 11
等級 2: 12
等級 3: 22
等級 4: 20
等級 5: 21
等級 6: 3
等級 7: 7
等級 8: 3

【Top100作者碼齡分布】

碼齡 0: 15
碼齡 1: 14
碼齡 2: 23
碼齡 3: 12
碼齡 4: 13
碼齡 5: 12
碼齡 6: 4
碼齡 7: 2
碼齡10: 1
碼齡12: 1
碼齡13: 1
碼齡-1: 1

【Top100作者周排名分布】

周榜前100名 : 5
第100~200名 : 2
第200~500名 : 8
第500~1千名 : 5
第1千~5千名 : 17
第5千~1萬名 : 14
第1萬~2萬名 : 7
第2萬~5萬名 : 10
第5萬~10萬名 : 11
10萬名之后 : 20

更多詳情見桌面檔案：
【CSDN排行榜Top100】2021-10-26.txt
==========================
報告日期：2021-10-26
報告時間：09:30
程式耗時：52.63s

啥也不說了，直接上代碼：

from requests import get
from bs4 import BeautifulSoup as bs
from win32com.shell import shell
from datetime import datetime as dt
from time import perf_counter
from re import findall

def lenB(str):
    t = 0
    for s in str:
        if '\u4e00' <= s <= '\u9fef': t += 1
    return t

def reportTime():
    d = dt.today()
    return f'{d.year}-{d.month:02}-{d.day:02} {d.hour:02}:{d.minute:02}'

def reportData(Index, num=0):
    count = [0,0,0,0,0,0]
    for i in Index:
        if i[0] <= num : count[0]+=1
        if i[1] <= num : count[1]+=1
        if i[2] <= num : count[2]+=1
        if sum(i[:2]) <= num : count[3]+=1
        if sum(i[:3]) <= num : count[4]+=1
        if i[-1]: count[-1]+=1
    return count

def reportData2(Index):
    count = [0,0,0,0,0,0]
    out1,out2 = (200,20,20),(100,10,10)
    for i in Index:
        if i[0] >= out1[0] : count[0]+=1
        if i[0] >= out2[0] : count[1]+=1
        if i[1] >= out1[1] : count[2]+=1
        if i[1] >= out2[1] : count[3]+=1
        if i[2] >= out1[2] : count[4]+=1
        if i[2] >= out2[2] : count[5]+=1
    return count

def reportString(count):
    outStr = f'瀏覽為0的：\t{count[0]}\n評論為0的：\t'
    outStr += f'{count[1]}\n收藏為0的：\t{count[2]}\n'
    outStr += f'瀏覽評論0的：\t{count[3]}\n'
    outStr += f'三指標都0的：\t{count[4]}\n'
    return outStr

def reportString2(count):
    outStr = f'瀏覽個位數的：\t{count[0]}\n'
    outStr += f'評論個位數的：\t{count[1]}\n'
    outStr += f'收藏個位數的：\t{count[2]}\n'
    outStr += f'無封面題圖的：\t{count[-1]}\n'
    return outStr

def reportString3(count,idx=0):
    out1,out2 = (200,20,20),(100,10,10)
    if idx==0: out = out1
    else: idx=1; out = out2
    outStr = f'瀏覽>={out[0]}的：\t{count[idx]}\n'
    outStr += f'評論>={out[1]}的：\t{count[idx+2]}\n'
    outStr += f'收藏>={out[2]}的：\t{count[idx+4]}\n'
    return outStr

def dictFromList(Values,num=5):
    tags,tagDict = [],dict()
    if num==5:
        for tag in Values:
            tags.extend(list(tag[num]))
    else:
        for tag in Values:
            tags.append(tag[num])
    Tags = list(set(tags))
    for t in Tags:
        tagDict[str(t)] = tags.count(t)
    return tagDict

def matchRange(value):
    if 0<value<=100: res = 0
    elif 100<value<=200: res = 1
    elif 200<value<=500: res = 2
    elif 500<value<=1000: res = 3
    elif 1000<value<=5000: res = 4
    elif 5000<value<=10000: res = 5
    elif 10000<value<=20000: res = 6
    elif 20000<value<=50000: res = 7
    elif 50000<value<=100000: res = 8
    else: res = 9
    return res

if __name__ == '__main__':

    desktop  = shell.SHGetFolderPath(0, 25, None, 0)
    filename = r'\【CSDN排行榜Top100】'+reportTime()[:10]+'.txt'
    output = desktop + filename
    tofile = open(output,'w',encoding='utf-8')

    rank,ids,articles,index = [],[],[],[]
    print('\n開始爬取熱榜，請稍候...')
    print('\n【CSDN 綜合熱榜】：\n', file=tofile)
    agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.'
    agent += '36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
    website = 'https://blog.csdn.net/phoenix/web/blog/'
    for i in range(4):
        url = website + f'hotRank?page={i}&pageSize=25'
        res = get(url,headers={'User-Agent':agent}).json()
        if res["code"] == 200: 
            data = res["data"]
            rank += [r for r in data]
    print(f'耗時：{perf_counter()}s\n')
    rank = [[v for i,v in r.items()] for r in rank]

    for i,r in enumerate(rank):
        d,m = divmod(i,25)
        if m==0:
            count = 0
            print(f'【{d*25+1}到{d*25+25}名】：\n', file=tofile)
        if r[5].lower():
            count += 1
            ids.append(r[5])
            articles.append(r[7])
            print(f'★№{i+1:02}：{r[3]} (熱度:{r[0]})\n○《{r[6]}》', file=tofile)
            print(f'◎ 瀏覽：{r[-5]} 評論：{r[-4]} 收藏：{r[-3]}', file=tofile)
            print(f'¤ {r[7]}\n', file=tofile)
            index.append((int(r[-3]),int(r[-5]),int(r[-4]),int(r[0]),r[-1]==[]))

    count1 = reportData(index)
    outStr1 = '【Top100指標統計】\n\n'
    outStr1 += reportString(count1)
    count1_2 = reportData(index,9)
    outStr1_2 = reportString2(count1_2)
    count1_3 = reportData2(index)
    outStr1_3 = reportString3(count1_3,1)
    print(outStr1, file=tofile)
    print(outStr1_2, file=tofile)
    print(outStr1_3, file=tofile)
    count2 = reportData(index[:50])
    outStr2 = '【Top50指標統計】\n\n'
    outStr2 += reportString(count2)
    count2_2 = reportData(index[:50],9)
    outStr2_2 = reportString2(count2_2)
    count2_3 = reportData2(index)
    outStr2_3 = reportString3(count1_3)
    print(outStr2, file=tofile)
    print(outStr2_2, file=tofile)
    print(outStr2_3, file=tofile)

    #標題關鍵字，可根據需要自行添加
    keywords = ('C++','C語言','Python','JAVA','Delphi','C#','mysql','HTML',
                'Matlab','Unity','Spring','Nginx',
                'Windows','Linux','Android','Ubuntu',
                '框架','演算法','物件','函式','爬蟲')
    kwIndex = []
    for _ in range(len(keywords)): kwIndex.append(0)
    for title in rank:
        for i,kw in enumerate(keywords):
            if kw.lower() in title[6].lower():
                kwIndex[i] += 1

    outStr3 = '\n【Top100標題常見關鍵字統計】\n\n'
    for i,kw in enumerate(kwIndex):
        if i==1: kwi,kws = kw + kwIndex[0],'C/C++'
        else: kwi,kws = kw,keywords[i].title()
        if i>=1 and kwi>0:
            outStr3 += f'{kws:<{10-lenB(kws)}}: {kwi}\n'
    '''
    #字典形式可以排序
    kwDict = dict()
    for i,kw in enumerate(keywords): kwDict[kw] = kwIndex[i]
    for item in sorted(kwDict.items(),key=lambda k:k[1],reverse=True):
        if not item[1]: print();break
        print(f'{item[0]:<{10-lenB(item[0])}}: {item[1]}')
    '''
    print(outStr1 + '\n' + outStr1_2 + '\n' + outStr1_3)
    print(outStr2 + '\n' + outStr2_2 + '\n' + outStr2_3)

    #爬取Top100資料
    Values = []
    print('開始爬取Top100網頁，請稍候(大約1分鐘)...')
    timer = perf_counter()
    for idx,url in enumerate(articles):
        res = get(url,headers={'User-Agent':agent})
        res.encoding='uft-8'
        soup = bs(res.text,'html.parser')
        value = []
        for i in range(3,8):
            if i!=4: value.append(rank[idx][i])
        try: #碼齡
            ctxt = 'personal-home-page personal-home-years'
            html = soup.find('span',class_=ctxt)
            value.append(int(findall(r'\d+',html.text)[0]))
        except: value.append(-1)
        try: #標簽
            ctxt = 'tags-box artic-tag-box'
            html = soup.find('div',class_=ctxt)
            html = html.find_all('a')
            value.append(set([i.text.strip().lower().title() for i in html]))
        except: value.append(set())
        html = soup.find_all('dl')
        for dl in range(1,len(html)):
            try: dlval = html[dl]['title']
            except: break
            if '級' in dlval: dlval = dlval[:dlval.find('級')]
            if '暫無排名' in dlval: dlval = -1
            value.append(int(dlval))
        if len(value)==16: value.append(False)
        else: value.append(True)
        Values.append(value)
    print(f'耗時：{perf_counter()-timer}s')
    datafile = desktop + r'\【CSDN排行榜Top100】data'+reportTime()[:10]+'.txt'
    #收集到的資料全部寫入檔案*data*.txt
    failVals = 0
    with open(datafile,'w',encoding='utf-8') as f:
        f.write(f'#報告日期：{reportTime()}\n')
        for val in Values:
            if val[-1]:
                failVals += 1
                continue
            f.writelines('|'.join([str(i) for i in val]))
            f.write('\n')
    Values = [val for val in Values if not val[-1]]
    print(f'下載失敗數：{failVals}\n')
    '''value串列各元素的索引值分別代表：
    0~ 5：昵稱 用戶名 標題 鏈接 碼齡 文章標簽
    6~10：原創 周排名 總排名 訪問 等級
    11~15：積分 粉絲 獲贊 評論 收藏
    16：  失敗標記=False'''
    #輸出內容
    tagsRank,tagDict = [],dictFromList(Values)
    for item in sorted(tagDict.items(),key=lambda t:t[1],reverse=True):
        tagsRank.append(f'{item[0]:<{22-lenB(item[0])}}: {item[1]}')
        if len(tagsRank)>=100: break
    outStr4 = lambda x:f'\n【Top100文章標簽排名(Top{x})】\n'
    
    outStr5 = '\n【Top100博客等級分布】\n\n'
    valDict = dictFromList(Values,10)
    for key,value in valDict.items():
        outStr5 += f'等級{key:>2}: {value}\n'
    print(outStr5, file=tofile)
    
    outStr6 = '\n【Top100作者碼齡分布】\n\n'
    valDict = dictFromList(Values,4)
    for key,value in valDict.items():
        outStr6 += f'碼齡{key:>2}: {value}\n'
    print(outStr6, file=tofile)

    outStr7 = '\n【Top100作者周排名分布】\n\n'
    valDict = dictFromList(Values,7)
    weekRank = [0 for _ in range(10)]
    for key,value in valDict.items():
        weekRank[matchRange(int(key))] += 1
    textRank = ('周榜前100名','第100~200名','第200~500名','第500~1千名','第1千~5千名',
                '第5千~1萬名','第1萬~2萬名','第2萬~5萬名','第5萬~10萬名','10萬名之后')
    for i,txt in enumerate(textRank):
        outStr7 += f'{txt:<{14-lenB(txt)}}: {weekRank[i]}\n'
    print(outStr7, file=tofile)
    #更多指標可用以分析或者畫折線圖柱形圖等等，指標索引見上面的注釋
    print(outStr5 + outStr6 + outStr7)
    print(f'更多詳情見桌面檔案：\n{filename[1:]}')
    endStr = '='*26
    endStr += f'\n報告日期：{reportTime()[:10]}'
    endStr += f'\n報告時間：{reportTime()[11:]}'
    endStr += f'\n程式耗時：{round(perf_counter(),2)}s\n'
    print(outStr3, file=tofile)
    print(outStr4(100), file=tofile)
    for t in tagsRank: print(t, file=tofile)
    print(endStr, file=tofile)
    tofile.close()
    print(endStr)

''' 運行環境： Windows7 + Python3.8.8 '''
''' Written by Hann, 2021.10.25 '''

代碼比較亂，這就是業余風格⊙﹏⊙‖∣ 程式一共抓取了16種資訊，可以根據需要，增加對其他各種資料時行分析，比如，還能用matplotlib來把資料畫成圖表：

例一：Top100的熱度衰減表

import matplotlib.pyplot as plt

plt.figure().canvas.set_window_title('CSDN Top100 熱度衰減示意圖')
plt.title('Top100 Attenuation Diagram')
		     
hots = [h[3] for h in index]
x = [i+1 for i in range(len(hots))]
plt.plot(x, hots)
		     
plt.show()

例二：Top100 博客等級分布圖

import matplotlib.pyplot as plt

plt.figure().canvas.set_window_title('CSDN Top100 博客等級分布示意圖')

Level = [i[10] for i in Values]
x = [i+1 for i in range(len(Level))]
plt.scatter(x, Level,marker='o')
		     
plt.show()

注：以上兩代碼中的 index 和 Values 兩個串列是原爬蟲程式中的全域變數，為省事我直接用了，同樣的還有一個變數tagDict可以直接拿來用的：

tagDict

{'紅書《題目與解讀》': 1, '# Java Web': 1, '負載均衡': 1, 'String': 1, 'Html': 1, '編程入門': 1, 'Python爬蟲': 1, '原力計劃': 5, 'React.Js': 1, '模板': 1, 'Flutter': 1, 'Python Qt': 1, 'Leetcode題解集錦': 1, '搜索引擎': 1, '基礎知識': 1, '后端': 8, 'Flutter騷操作': 1, 'Spring Boot': 2, 'Elasticsearch': 3, '架構': 1, 'Database': 3, 'Nginx': 3, '1024程式員節': 23, 'Waf攻防': 1, '計算機網路': 1, '程式員生存技能': 1, '二叉樹': 1, '泛型類': 1, '日期工具類': 1, '拍賣': 1, 'Web前端': 1, 'Date': 1, '排序演算法': 2, 'Javascript': 9, '原始碼分析': 1, '資料分析': 1, '大資料': 3, 'Linux': 6, '資料庫': 5, 'Pycharm': 1, 'Vue.Js': 5, '作業系統': 2, '單片機': 1, '生活感悟': 1, 'Java成神之路之設計模式': 1, 'Create-Vue': 1, '藍橋杯': 1, '貪心': 1, '【詳細注釋】資料結構與演算法': 1, '專案': 1, 'Matlab': 1, 'Jdbc': 1, '微信小程式': 1, '# 中間件': 1, 'Bash': 1, 'Leetcode': 3, '同步': 1, '資料庫應用': 1, '堆疊': 1, 'Language': 1, '開發語言': 10, 'Jwt': 1, 'Css': 3, 'Mysql': 1, '作業系統篇': 1, 'Vj': 1, 'Sqlite': 1, 'Java基礎': 1, 'Spring': 4, '計算機網路養成': 1, '機器人': 1, 'Centos': 1, '機器視覺': 1, 'Kube-Controller-Manager': 1, '網路編程專題': 1, '從零開始Python+微信小程式開發': 1, 'C語言': 4, 'Spring Security': 1, '泛型': 1, '面試': 1, 'Elastic': 1, '讀論文': 1, '資料處理': 1, '服務器': 3, '重學Java高并發': 1, '云原生': 1, 'Java': 25, '線性回歸': 1, '基數排序': 1, '網路': 2, 'Rabbitmq': 1, 'Js': 1, '上位機': 1, 'Java基礎概要': 1, 'React系列': 1, 'Qt': 1, '分類': 1, '網路協議': 1, '多執行緒': 1, '資料庫開發': 1, 'Vue': 4, 'Jvm': 1, '常用演算法考題': 1, '跨域': 1, 'Visio': 1, 'Es6': 2, '原始碼': 1, 'Synchronized': 1, '演算法之力扣系列': 1, '老王和他的It界朋友們': 1, 'C++語言': 1, '行程管理': 1, '層序遍歷': 1, 'Wireshark': 1, '知識點': 1, '經驗分享': 1, 'Javascript百煉成仙（試讀）': 1, 'Hibernate': 1, '運維': 2, '資料結構與演算法': 1, '雙指標': 1, '教程': 1, 'Python': 8, '# Python科學計算基礎': 1, '編譯原理': 1, 'Big Data': 2, '資料結構': 2, '程式人生': 1, 'Linux相關命令': 1, '單調堆疊': 1, '影像處理': 2, 'Oauth2': 1, 'Qclipboard': 1, 'Jupyter': 1, 'Lintcode演算法': 1, 'Opengauss經驗總結': 1, 'C++': 5, 'Springboot': 2, '演算法設計': 1, 'Redis': 2, '刷題筆記': 1, '雜文': 1, 'Ecmascript': 2, 'Linux學習': 1, '剪貼資料類': 1, '基于Matlab與Fpga的數字影像處理': 1, '前端': 9, 'Opencv': 2, 'Android專案記錄': 1, '人工智能學習之路': 1, '演算法': 8, '分布式事務': 1, 'Epoll': 1, '復習': 1, 'Http': 1, 'C語言筆記': 1, 'Anaconda': 1, '計算機視覺': 1, '其他': 1, 'Npm': 1, 'Sso': 1, 'Gui設計': 1, 'Array': 1, '筆記': 3, '安裝': 1, 'Kubernetes': 1, 'Sqlserver': 1, '泛型方法': 1, '# Spring': 1, '分布式': 1, 'Ros機械臂': 1, 'Docker': 1, '鏈表': 1, 'Css3': 2, 'Android': 1, '微服務': 1, 'Python計算機視覺': 1, '分布式&Amp;高并發': 1, '排序': 1}

這個變數可以用模塊wordcloud （中文分詞需要jieba模塊配合）加工一下，生成Top100熱榜文章的標簽詞云圖，（有待下一篇再做，本篇完）

學習交流 Python 的群和公眾號：

歡迎關注公眾號

http://qr01.cn/FHYKEa

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/337757.html

標籤：其他

上一篇：深入理解快速排序以及優化方式【建議收藏】

下一篇：萬圣節快到了，一起用MATLAB繪制一個可愛的南瓜燈叭