爬取網易云資料并且可視化展示-有解無憂

結構化爬取網易云資料并且可視化展示

- 專案說明
- 代碼框架
- 第三方庫說明
- 內容爬取說明
- - 頁面詳情
- 完整代碼
- 爬取結果
- 內容可視化

專案說明

網易云音樂歌單資料獲取，獲取某一歌曲風格的所有歌單，進入每個歌單獲取歌單名稱、創建者、播放量、頁面鏈接、收藏數、轉發數、評論數、標簽、介紹、收錄歌曲數、部分收錄歌名，并統計播放量前十的歌單，將播放量前十的歌單以及對應的所有資訊進行另外存盤，對其進行可視化展示，
在做這個爬蟲的時候，對于如何翻頁問題和身邊的人進行了探討，有人說用selenium模擬點擊，但是通過觀察網頁，我發現即使是不用模擬點擊翻頁也能歷遍爬完歌單的資訊，接下來我就帶著大家一起如何爬取資料，

代碼框架

在這里插入圖片描述

第三方庫說明

在專案中用到的一些第三方庫的介紹：

#      bs4
'''
BS4全稱是Beautiful Soup，它提供一些簡單的、
python式的函式用來處理導航、搜索、修改分析樹等功能，
它是一個工具箱，通過決議檔案為Beautiful Soup自動將輸入檔案轉換為
Unicode編碼，輸出檔案轉換為utf-8編碼，
'''

#     requests
'''
用requests庫來訪問網頁，獲取網頁內容，支持HTTP特性
'''

#     time
'''
Time庫是與時間處理有關的模塊，
在這個專案中是用來強制網頁訪問間隔時間的，
'''

#     random
'''
Random庫主要功能是提供亂數，在專案中和time庫配合使用，
生產隨機強制訪問的間隔時間的
'''

#     xlwt
'''
Python訪問Excel時的庫，其功能是寫入xls檔案，
在本專案中是用于寫入爬取的資料
'''

#      pandas  
'''
Pandas庫是基于NumPy的一種工具，用于讀取文本檔案的，
可以快速便捷的處理資料的庫，
'''

#     pyecharts.charts
'''
pyecharts.charts是用于資料可視化的庫，其中包含很多種畫圖工具，
在本專案中應用到的是畫柱狀圖是Bar，圓餅圖是Pie
'''

#    matplotlib.pyplot
'''
matplotlib也是可視化的庫，由各種可視化的類構成，
matplotlib.pyplot是繪制各類可視化圖形的命令子庫
'''

內容爬取說明

爬取鏈接：https://music.163.com/discover/playlist/?cat=

頁面詳情

觀察網頁內容是我們進行爬蟲專案的首要步驟，這里我選擇了華語型別的歌單來觀察一下；
在這里插入圖片描述

華語風格的歌單總共有37頁，每頁有35個歌單，那總共大約有1295個歌單，一個風格的歌單是代表不了全部的，我們在做爬蟲的時候要避免以偏概全，多看一個頁面，找出規律，這樣才能寫出結構化的爬蟲，當網頁的內容發生變化，但總體框架沒有變化時，我們的代碼就能繼續運行，這也是考驗代碼健壯性的一方面（跑偏了），
在選擇其他歌單類別后，可以看到每個類別的歌單基本都是用37或38個頁面來存放歌單，每個頁面有35個歌單，那如何歷遍每一個頁面呢？
我當時面對這個問題的時候也是想了很久，又不想用selenium模擬點擊，那我們就要多觀察源代碼，看看有沒有蛛絲馬跡，

老規矩 F12 進入開發者選項：

在這里插入圖片描述

在源代碼中，我們可以看到每個頁面對應的鏈接是有規律的，

例如：“https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%8D%8E%E8%AF%AD&limit=35&offset=35”

通過網頁鏈接觀察，我發現對于網頁翻頁的重點在于“&limit=35&offset=35”的數字35，每個頁面是以鏈接后面的數字決定當前是在第幾個頁面，是以0為首頁面，35為倍數的規律，第一個頁面為 “&limit=0&offset=0”，第二個頁面為 “&limit=35&offset=35”，第三個頁面為 “&limit=35&offset=70”，以此類推，只要知道當前類別的歌單有多少個頁面，就可以通過for回圈來回圈翻頁，遍歷每一個頁面，

既然我們已經知道了翻頁的規律了，那現在的重點就是獲取歌單的頁數，我們可以在箭頭指引的地方，用開發者選項自帶的復制方式，直接右鍵選擇copy，copy selector直接復制CSS選擇器陳述句；

標簽： #m-pl-pager > div > a:nth-child(11)

#獲取歌單網頁的頁數
result = bs.select('#m-pl-pager > div > a:nth-child(11)')

那接下來就是對單個歌單進行內容爬取了，由于我們爬取的內容較多，所以這里就不一一列舉了，大家可以自行對比參照，不懂可以私信，

獲取歌單名稱
在這里插入圖片描述
進入每一個頁面，獲取該頁面的每一個歌單，進入單個歌單中，歌單名稱，創建者，播放量等資料都存放在網頁的同一個div內，

id='content-operation'

通過selector選擇器選擇各個內容的，由于是在網易云的網頁版，因此在歌單內的歌曲并沒有顯示所有歌曲，只顯示了10條歌曲，因此在爬取的時候每個歌單只獲取了10條歌曲，如果還想要爬取每天歌曲更多詳細內容，可以進入歌曲的url鏈接，獲取更多的內容，

完整代碼

這里我會定義一個內容類Content 和網頁資訊類Website，進行結構化爬蟲，如果不是很理解的話，可以看看我之前發過的內容，

爬取三聯生活周刊新聞

Content類和 Website類

class Content:
    def __init__(self, url, name, creator, play, collect, transmit, comment, tag,
                introduce, sing_num, sing_name):
        self.url = url
        self.name = name
        self.creator = creator
        self.play = play
        self.collect = collect
        self.transmit = transmit
        self.comment = comment
        self.tag = tag
        self.introduce = introduce
        self.sing_num = sing_num
        self.sing_name = sing_name
        
    def print(self):
        print("URL: {}".format(self.url))
        print("NAME:{}".format(self.name))
        print("CRAETOR:{}".format(self.creator))
        print("PLAY:{}".format(self.play))
        print("COLLECT:{}".format(self.collect))
        print("TRANSMIT:{}".format(self.transmit))
        print("COMMENT:{}".format(self.comment))
        print("TAG:{}".format(self.tag))
        print("INTRODUCE:{}".format(self.introduce))
        print("SING_NUM:{}".format(self.sing_num))
        print("SING_NAME:{}".format(self.sing_name))
        
class Website:
    def __init__(self, searchUrl, resultUrl,  pUrl, absoluterUrl, nameT, creatorT, playT, collectT, transmitT, 
                 commentT, tagT, introduceT, sing_numT, sing_nameT):
        self.resultUrl = resultUrl
        self.searchUrl = searchUrl
        self.absoluterUrl = absoluterUrl
        self.pUrl = pUrl
        self.nameT = nameT
        self.creatorT = creatorT
        self.playT = playT
        self.collectT = collectT
        self.transmitT = transmitT
        self.commentT = commentT
        self.tagT = tagT
        self.introduceT = introduceT
        self.sing_numT = sing_numT
        self.sing_nameT = sing_nameT

爬取類 Crawler

from bs4 import BeautifulSoup
import re
import requests
import time
import random
import xlwt  #進行excel操作

class Crawler:
    
    #爬取網頁函式
    def getWeb(self, url):  
        try:  #例外處理
        	#請求頭
            headers_ = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
                    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
            req = requests.get(url, headers = headers_)
            req.encoding = "utf-8"  #網頁格式化，避免出現亂碼
        except requests.exceptions.RequestException:
            return None
        
        return BeautifulSoup(req.text, "html.parser")
     
     #爬取所需內容的函式   
    def getContent(self, pageObj, selector):
        childObj = pageObj.select(selector)
       
#         print("\n".join(line.text for line in childObj))
        return "\n".join(line.text for line in childObj)

    #搜索函式，主函式    
    def search(self, topic, site):
    
#         爬取某種風格的歌單有多少頁
        newurl = site.searchUrl + topic
        newurl = requests.utils.quote(newurl, safe=':/?=&')  #對url鏈接上存在的中文字符進行處理
        bs = self.getWeb(newurl)
        result = bs.select('#m-pl-pager > div > a:nth-child(11)')  
        num = int("\n".join(link.text for link in result))  #某種風格歌單的頁數
        
#         翻頁，選取一種歌曲風格，有多個頁面加載歌單，分別讀取
        for i in range(0, num+1):
            j = 35*i
            url = site.searchUrl + topic + '&limit=35&offset=' + str(j)  #構造每個頁面的url鏈接
            url = requests.utils.quote(url, safe=':/?=&')
            bs = self.getWeb(url)
            
            searchResults = bs.select(site.resultUrl)

            for link in searchResults:

                url = link.attrs["href"]

                #         判斷是否為絕對鏈接
                if(site.absoluterUrl):
                    bs = self.getWeb(url)
                else:
                    bs = self.getWeb(site.pUrl + url)
    #                 print(site.pUrl + url)
                if(bs is None):
                    print("something was wrong with that page or URL. Skipping")
                    return
                else:
                                        
                #爬取歌曲名稱 
                    main = bs.find('ul',{'class':'f-hide'})
                    sing_name = "\n".join(music.text for music in main.find_all('a'))
                        

    #             爬取相關內容
                data = []  #申請一個陣列，以歌單為單位，存盤每個歌單里面所需要的內容

                url = site.pUrl + url
                data.append(url)
    #             print(data)
#     加入一個引數，判斷目前讀取的資料是字串還是整數
                name = self.getContent(bs, site.nameT)
                data.append(name)
                creator = self.getContent(bs, site.creatorT)
                data.append(creator)
                play = self.getContent(bs, site.playT)
                data.append(play)
                collect = self.getContent(bs, site.collectT)
                data.append(collect)
                transmit = self.getContent(bs, site.transmitT)
                data.append(transmit)
                comment = self.getContent(bs, site.commentT)
                data.append(comment)
                tag = self.getContent(bs, site.tagT)
                data.append(tag)
                introduce = self.getContent(bs, site.introduceT)
                data.append(introduce)
                sing_num = self.getContent(bs, site.sing_numT)
                data.append(sing_num)
#                 sing_name = self.getContent(bs, site.sing_nameT)
                data.append(sing_name)

                datalist.append(data)  #以歌單為單位存入陣列中
    #             print(datalist)
                content = Content(url, name, creator, play, collect, transmit, comment, tag, introduce, sing_num, sing_name)
    #             content.print()
    #             return datalist
    
    #資料寫入檔案        
    def saveData(self, datalist, savepath):
        print("保存到Excel檔案中！")
#         xlwt.Workbook用來創建一個作業表，style_compression=0表示是否被壓縮
        music = xlwt.Workbook(encoding = 'utf-8', style_compression=0)
#     添加sheet表格，并允許重復修改
        sheet = music.add_sheet('網易云音樂資料爬取', cell_overwrite_ok=True)
#         定義列名
        col = ("url", "歌單名稱", "創建者", "播放量", "收藏量", "轉發量", 
               "評論量", "標簽", "介紹", "歌曲數量", "歌曲名稱" )
        for i in range(0,11):
            sheet.write(0, i, col[i])  #將列名寫進表格
        for i in range(0, len(datalist)-1):
#             print("第{}行正在寫入".format(i+1))
            data = datalist[i]
            for j in range(0, 11):
                sheet.write(i+1, j, data[j])
               
        music.save('E:/新建檔案夾/Python爬蟲/網易云音樂.xls')
        print("資料保存成功！")



crawler = Crawler()
# searchUrl, resultUrl,  pUrl, absoluterUrl, nameT, creatorT, playT, collectT, transmitT, 
#                  commentT, tagT, introduceT, sing_numT, sing_nameT
#對應website類的引數，將website定義的引數進行實體化
siteData = [['https://music.163.com/discover/playlist/?cat=', 'a.msk',
             'https://music.163.com', False, 'div.tit h2.f-ff2.f-brk', 'span.name a',
            'strong#play-count', 'a.u-btni.u-btni-fav i', 'a.u-btni.u-btni-share i',
             '#cnt_comment_count', 'div.tags.f-cb a i', 'p#album-desc-more',
            'div.u-title.u-title-1.f-cb span.sub.s-fc3', 'span.txt a b']]
sites = []
datalist = []
for row in siteData:
    sites.append(Website(row[0], row[1], row[2], row[3], row[4], row[5], row[6], row[7], row[8], row[9], row[10], row[11], row[12], row[13]))
topics = "華語"  #選擇自己想要的歌曲風格
time.sleep(random.random()*3)
for targetSite in sites:
    crawler.search(topics, targetSite)
savepath = '網易云音樂.xls'
crawler.saveData(datalist, savepath)

爬取結果

爬取的結果
在這里插入圖片描述
由于資料太多了，這里就只截取了一部分，有興趣可以自己運行一下；

內容可視化

可視化代碼

import pandas as pd
from pyecharts.charts import Pie  #畫餅圖
from pyecharts.charts import Bar  #畫柱形圖
from pyecharts import options as opts
import matplotlib.pyplot as plt


# 讀入資料，需要更改
#可視化
data = pd.read_excel('網易云音樂.xls')
#根據播放量排序，只取前十個
df = data.sort_values('播放量',ascending=False).head(10)
v = df['歌單名稱'].values.tolist()   #tolist()將資料轉換為串列形式
d = df['播放量'].values.tolist()
#設定顏色
color_series = ['#2C6BA0','#2B55A1','#2D3D8E','#44388E','#6A368B'
                '#7D3990','#A63F98','#C31C88','#D52178','#D5225B']
# 實體化Pie類
pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))
# 設定顏色
pie1.set_colors(color_series)
# 添加資料，設定餅圖的半徑，是否展示成南丁格爾圖
pie1.add("", [list(z) for z in zip(v, d)],
        radius=["30%", "135%"],
        center=["50%", "65%"],
        rosetype="area"
        )
# 設定全域配置項
# TitleOpts標題配置項 
# LegendOpts圖例配置項  is_show是否顯示圖例組件
# ToolboxOpts()工具箱配置項 默認項為顯示工具列組件

pie1.set_global_opts(title_opts=opts.TitleOpts(title='播放量top10歌單'),
                     legend_opts=opts.LegendOpts(is_show=False),
                     toolbox_opts=opts.ToolboxOpts())
# 設定系列配置項
# LabelOpts標簽配置項  is_show是否顯示標簽；  font_size字體大小；
# position="inside"標簽的位置，文字顯示在圖示里面； font_style文字風格
# font_family文字的字體系列
pie1.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="inside", font_size=12,
                                               formatter="{b}:{c}播放量", font_style="italic",
                                               font_weight="bold", font_family="Microsoft YaHei"
                                               ),
                     )
# 生成html檔案
pie1.render("E:/玫瑰圖.html")
print("玫瑰圖保存成功！")

print("-----"*15)
# print(df['創建者'].values.tolist())
bar = (
    Bar()
    .add_xaxis([i for i in df['創建者'].values.tolist()])
    .add_yaxis('播放量排名前十對應的評論量', df['評論量'].values.tolist())
)
bar.render("E:/條形圖.html")
print("柱形圖保存成功！")

詞云代碼

import wordcloud
import pandas as pd
import numpy as np

data = pd.read_excel('網易云音樂.xls')
#根據播放量排序，只取前十個
data = data.sort_values('播放量',ascending=False).head(10)
print(data["歌單名稱"])
#font_path指明用什么樣的字體風格，這里用的是電腦上都有的微軟雅黑
w1 = wordcloud.WordCloud(width=1000,height=700,
                         background_color='white',
                         font_path='msyh.ttc')
txt = "\n".join(i for i in data['歌單名稱'])
w1.generate(txt)
w1.to_file('E:\\詞云.png')`

玫瑰圖
在這里插入圖片描述

柱形圖
在這里插入圖片描述
詞云

結束，有興趣的朋友可以來交流一下，這期的內容就到這了，大家晚安，拜拜！

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/276634.html

標籤：python

上一篇：18條很棒的python一行代碼

下一篇：精寫15篇，學會Python爬蟲 -- （4）專案一：獲取電影票房資料庫資料丨蓄力計劃