Python爬蟲入門教程15：音樂網站資料的爬取-有解無憂

前言??

本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理，

前文內容??

Python爬蟲入門教程01：豆瓣Top電影爬取

Python爬蟲入門教程02：小說爬取

Python爬蟲入門教程03：二手房資料爬取

Python爬蟲入門教程04：招聘資訊爬取

Python爬蟲入門教程05：B站視頻彈幕的爬取

Python爬蟲入門教程06：爬取資料后的詞云圖制作

Python爬蟲入門教程07：騰訊視頻彈幕爬取

Python爬蟲入門教程08：爬取csdn文章保存成PDF

Python爬蟲入門教程09：多執行緒爬取表情包圖片

Python爬蟲入門教程10：彼岸壁紙爬取

Python爬蟲入門教程11：新版王者榮耀皮膚圖片的爬取

Python爬蟲入門教程12：英雄聯盟皮膚圖片的爬取

Python爬蟲入門教程13：高質量電腦桌面壁紙爬取

Python爬蟲入門教程14：有聲書音頻爬取

PS：如有需要 Python學習資料 以及 解答 的小伙伴可以加點擊下方鏈接自行獲取
python免費學習資料以及群交流解答點擊即可加入

基本開發環境??

Python 3.6
Pycharm

相關模塊的使用??

import requests
import os

安裝Python并添加到環境變數，pip安裝需要的相關模塊即可，

一、??明確需求

爬取某音樂網站的排行榜歌曲，
在這里插入圖片描述

二、??網頁資料分析

1、F12或者滑鼠右鍵點擊檢查打開開發者工具，點擊播放音樂，下面會加載出音樂資料，在這里插入圖片描述

#  干飯人之歌 音頻資料地址：
https://gm-sycdn.kuwo.cn/82c2c756b7ebeacb907831ff0906199e/601a3aa9/resource/n2/88/78/3642423505.mp3

復制鏈接粘貼到瀏覽器中在這里插入圖片描述
2、根據音頻鏈接中的引數，搜索查找來源

# 音頻鏈接來源
https://www.kuwo.cn/url?format=mp3&rid=160864905&response=url&type=convert_url3&br=128kmp3&from=web&t=1612331691895&httpsStatus=1&reqId=550f7f80-65e4-11eb-9b00-6d65a3b5fef1

一首歌曲的來源地址是找不出規律的，所以要再對比一些另外一首歌曲的鏈接引數
在這里插入圖片描述
如圖所示： rid 和 t 引數不一樣，很明顯 t 就是代表的時間戳，這個使用 time.time() 就有了，所以可以繼續在開發者工具中搜索 rid 的值

在這里插入圖片描述

https://www.kuwo.cn/api/www/bang/bang/musicList?bangId=93&pn=1&rn=30&httpsStatus=1&reqId=428dcbf0-65e4-11eb-9b00-6d65a3b5fef1

rid 以及歌名歌手名都有了，

三、??代碼實作

爬蟲分析思路是從上到下開始分析，寫代碼則是從下往上寫，

1、獲取音樂的 rid 、歌名、歌手名

import pprint
import requests


def get_response(html_url):
    headers = {
        'Cookie': '你自己的cookie',
        'csrf': 'D2YF7NMH81N',
        'Host': 'www.kuwo.cn',
        'Referer': 'https://www.kuwo.cn/rankList',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
    }
    response = requests.get(url=html_url, headers=headers)
    return response


def get_music_info(html_url):
    json_data = https://www.cnblogs.com/Qqun821460695/archive/2021/02/03/get_response(html_url).json()
    pprint.pprint(json_data)
    music_list = json_data['data']['musicList']
    for index in music_list:
        music_name = index['album']
        singer = index['artist']
        music_rid = index['rid']
        

if __name__ == '__main__':
    url = 'https://www.kuwo.cn/api/www/bang/bang/musicList?bangId=93&pn=1&rn=30&httpsStatus=1&reqId=428dcbf0-65e4-11eb-9b00-6d65a3b5fef1'
    get_music_info(url)

在這里插入圖片描述
回傳的是一個json資料，一個一個去取值就可以了，主要的注意點就是headers引數的問題，如果引數不給全，爬取不到資料，

2、獲取音頻URL地址

def get_music_url(music_rid):
    page_url = f'https://www.kuwo.cn/url?format=mp3&rid={music_rid}&response=url&type=convert_url3&br=128kmp3&from=web&t=1612331691895&httpsStatus=1&reqId=550f7f80-65e4-11eb-9b00-6d65a3b5fef1'
    json_data = https://www.cnblogs.com/Qqun821460695/archive/2021/02/03/get_response(page_url).json()
    music_url = json_data['url']
    return music_url

3、保存音頻資料

def save(music_name, music_url):
    path = 'music\\'
    if not os.path.exists(path):
        os.makedirs(path)
    filename = path + music_name + '.mp3'
    headers = {
        'if-range': '8eba7fc5d5b2f4d223d54612aa3f4773',
        'range': 'bytes=524288-524288',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400',
    }
    music_content = requests.get(url=music_url, headers=headers).content
    with open(filename, mode='wb') as f:
        f.write(music_content)
        print('正在保存：', music_name)

請求音樂下載的地址的 headers 需要更換一下，不然爬取不了音樂，
在這里插入圖片描述

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/256196.html

標籤：其他

上一篇：禁止 flask_restful reqparse 對請求中未設定的引數自動填充為 None

下一篇：Spring Boot 2.x基礎教程：使用JTA實作多資料源的事務管理