【Python爬蟲實戰專案】Python爬蟲批量下載喜馬拉雅評書音頻并保存本地（附原始碼）-有解無憂

前言

今天給大家介紹的是Python爬蟲批量下載評書音頻并保存本地，在這里給需要的小伙伴們代碼，并且給出一點小心得，

首先是爬取之前應該盡可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本資料爬取的人會很多，所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對評書精選音頻進行爬取，

在每次進行爬蟲代碼的撰寫之前，我們的第一步也是最重要的一步就是分析我們的網頁，

通過分析我們發現在爬取程序中速度比較慢，所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度，

相聲音頻

開發工具

Python版本： 3.6

相關模塊：

requests模塊

re模塊

環境搭建

安裝Python并添加到環境變數，pip安裝需要的相關模塊即可，

文中完整代碼及檔案，評論留言獲取

資料來源查詢分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具，查看我們想要的相聲評書精選音頻在哪里
這里我們需要頁面資料就可以了

源代碼結構

代碼實作

# 音頻串列頁面
url = 'https://www.ximalaya.com/album/9723091'
# 偽裝模擬 headers 請求頭<字典資料型別>
headers = {
    # user-agent 用戶代理, 表示瀏覽器基本身份資訊
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'cookie': '你的Cookie'
}
# 發送請求:
# 呼叫requests模塊里面get請求方法, 對于url地址發送請求, 并且攜帶上headers請求頭偽裝, 最后用自定義變數response接受回傳資料
response = requests.get(url=url, headers=headers)
# <Response [200]> response回應<>物件  200 狀態碼 表示請求成功
print(response)

# 音頻名字
titles = re.findall('"tag":0,"title":"(.*?)","playCount"', response.text)
# 音頻ID
audio_id_list = re.findall('"url":"/sound/(\d+)","duration"', response.text)
# for回圈遍歷, 把串列里面元素一個一個提取出來
for title, audio_id in zip(titles, audio_id_list):

 # 字串格式化方法 format 把 audio_id 傳到 這個鏈接里面
    link = f'https://www.ximalaya.com/revision/play/v1/audio?id={audio_id}&ptype=1'
    # 發送請求
    response_1 = requests.get(url=link, headers=headers)
    # 獲取資料 response.json() 獲取回應json字典資料
    # print(response_1.json())

Cookie獲取

在這里插入圖片描述

效果展示

在這里插入圖片描述

最后

今天的分享到這里就結束了，感興趣的朋友也可以去試試哈

對文章有問題的，或者有其他關于python的問題，可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話，可以關注一下我，或者給文章點贊(/≧▽≦)/

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/541549.html

標籤：其他

上一篇：Python工具箱系列(二十二)

下一篇：Django模板控制結構(for/forloop/if)