主頁 > 後端開發 > 【python爬蟲實戰】用python爬取愛奇藝電視劇十大榜單的全部資料!

【python爬蟲實戰】用python爬取愛奇藝電視劇十大榜單的全部資料!

2023-06-08 07:55:31 後端開發

目錄
  • 一、爬取目標
  • 二、講解代碼
  • 三、查看結果
  • 四、視頻演示
  • 五、附完整原始碼

一、爬取目標

本次爬取的目標是,愛奇藝電視劇類目下的10個榜單:電視劇風云榜-愛奇藝風云榜
?愛奇藝頁面

可以看到,這10個榜單包含了:
熱播榜、飆升榜、必看榜、古裝榜、言情榜、都市榜、搞笑榜、年代榜、懸疑榜、奇幻榜,

我們以熱播榜為例,打開Chrome瀏覽器,按F12進入開發者模式,選擇網路 -> XHR這個選項,重新重繪一下頁面,并且逐次下拉頁面到最底部,展現出全部100部電視劇:
?開發者模式

查看捕獲到的請求鏈接地址,每翻一次頁,出現一條鏈接地址,并且該地址的回應資料就是20條電視劇的資料,
所以,這個地址就是我們要請求的地址了,

二、講解代碼

首先,匯入需要用到的爬蟲庫:

import requests  # 發送請求
import pandas as pd  # 存入excel檔案
from time import sleep  # 隨機等待,防止反爬
import random  # 設定隨機

從請求地址的Request Header處,拷貝過來一個請求頭,放到代碼里:

headers = {
	'accept': 'application/json, text/plain, */*',
	'accept-encoding': 'gzip, deflate, br',
	'accept-language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'origin': 'https://www.iqiyi.com',
	'referer': 'https://www.iqiyi.com/',
	'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
	'sec-ch-ua-mobile': '?1',
	'sec-ch-ua-platform': '"Android"',
	'sec-fetch-dest': 'empty',
	'sec-fetch-mode': 'cors',
	'sec-fetch-site': 'same-site',
	'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Mobile Safari/537.36'
}

愛奇藝的這個榜單頁面,反爬不那么厲害,請求頭中連cookie都不用加!
由于我想自動爬取這10個榜單,每個榜單對應一個tag標簽,從哪里獲取呢?經過分析,是從另外一個請求地址回傳的:
?開發者模式2
發現了嗎?每個榜單名稱是一個tagName,對應一個tagId,拿到tagId,帶入到榜單資料的請求地址中:

for page in range(1, 5):
	url = 'https://pcw-api.iqiyi.com/strategy/pcw/data/topRanksData?page_st={}&tag={}&category_id=2&date=&pg_num={}'.format(v_tag_id, v_tag_id, page)
	r = requests.get(url, headers=headers)

這樣,就完成了向頁面發送請求的程序,

順便說一下這個for回圈,一共翻4頁,每頁25條資料,對應一共100部電視劇,

用json格式接識訓傳的資料:

json_data = https://www.cnblogs.com/mashukui/p/r.json()

然后開始決議json資料:

content_list = json_data['data']['formatData']['data']['content']
for content in content_list:
	# 排名
	order_list.append(order)
	# 標題
	title_list.append(content['title'])
	print(order, ' ', content['title'])
	# 描述
	try:
		desc_list.append(content['desc'])
	except:
		desc_list.append('')
	# 標簽
	tags_list.append(content['tags'])
	tag_info = content['tags'].split(' / ')
	# 上映年份
	year = tag_info[0]
	year_list.append(year)
	# 主演
	actor = tag_info[-1]
	actor_list.append(actor)
	# 彈幕
	try:
		danmu_list.append(content['danmu'].replace('條彈幕', ''))
	except:
		danmu_list.append('')
	# 霸榜
	try:
		babang_list.append(content['babang'])
	except:
		babang_list.append('')
	# 實時熱度
	if v_tag_name == '飆升榜':
		index_list.append(content['index'] + '%')
	else:
		index_list.append(content['index'])
	order += 1

最后,依然采用我最順手的方法,拼裝成DataFrame的格式,保存到excel檔案:

df = pd.DataFrame({
		'排名': order_list,
		'標題': title_list,
		'描述': desc_list,
		'標簽': tags_list,
		'上映年份': year_list,
		'主演': actor_list,
		'彈幕': danmu_list,
		'霸榜': babang_list,
		'實時熱度': index_list,
	})
if v_tag_name == '飆升榜':  # 如果是飆升榜,把excel標題中的'實時熱度'改為'飆升幅度'
	df.rename(columns={'實時熱度': '飆升幅度'}, inplace=True)
df.to_excel('愛奇藝電視劇_{}.xlsx'.format(v_tag_name), index=False)

這里,需要注意一個小邏輯,飆升榜的'實時熱度'需要rename為'飆升幅度',因為飆升榜跟其他榜單不一樣!
?飆升榜頁面

三、查看結果

共爬取到10個榜單檔案:
?結果檔案

隨便打開一個檔案,比如,熱播榜:
?熱播榜

比如,都市榜:
?都市榜

除了搞笑榜有40+條資料,其他榜單都是100條資料,對應100部電視劇,

四、視頻演示

代碼演示視頻:https://www.bilibili.com/video/BV1fT4y1e7wd/

五、附完整原始碼

完整原始碼:【python爬蟲實戰】用python爬取《愛奇藝風云榜》電視劇十大榜單!2023.6發布


我是 @馬哥python說 ,持續分享python原始碼干貨中!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/554531.html

標籤:Python

上一篇:【Python&RS】遙感影像的像素坐標轉地理坐標(仿射變換)

下一篇:返回列表

標籤雲
其他(160512) Python(38215) JavaScript(25478) Java(18209) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7235) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4585) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1983) 功能(1967) HtmlCss(1952) Web開發(1951) C++(1933) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1879) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【python爬蟲實戰】用python爬取愛奇藝電視劇十大榜單的全部資料

    [toc] # 一、爬取目標 本次爬取的目標是,愛奇藝電視劇類目下的10個榜單:[電視劇風云榜-愛奇藝風云榜](https://www.iqiyi.com/ranks1/2/0) ?![愛奇藝頁面](https://img2023.cnblogs.com/blog/2864563/202306/28 ......

    uj5u.com 2023-06-08 07:55:31 more
  • 【Python&RS】遙感影像的像素坐標轉地理坐標(仿射變換)

    ? GDAL(Geospatial Data Abstraction Library)是一個在X/MIT許可協議下的開源柵格空間資料轉換庫。它利用抽象資料模型來表達所支持的各種檔案格式。它還有一系列命令列工具來進行資料轉換和處理。 Python的GDAL庫作為柵格資料的處理轉換庫,其支持幾百種柵格數 ......

    uj5u.com 2023-06-08 07:55:17 more
  • Python&Excel辦公自動化

    操作作業簿 01 新建一個excel作業簿 #2023-4-17 import xlwings as xw # 啟動 excel,但不新建作業簿 app是什么,app是excel程式本身 app = xw.App(visible=True,add_book=True) #新建一個作業簿 workbo ......

    uj5u.com 2023-06-08 07:55:12 more
  • Python 串列推導式:簡潔、高效的資料操作藝術

    # Python 串列推導式:簡潔、高效的資料操作藝術 Python 的串列推導式,這個看似簡單的語法糖,實則內含無限威力。在 Python 代碼撰寫中,串列推導式的靈活性和簡潔性讓它成為了不可或缺的一部分。在這篇文章中,我們將更全面、更深入地探討串列推導式,從基礎的概念認識,到各類進階的用法和操作 ......

    uj5u.com 2023-06-08 07:55:07 more
  • 鏈家廣州二手房資料 2023

    還記得在2019年的夏天曾經用 R 爬過一份廣州在 lianjia.com 放盤資料 ([博客1](https://www.cnblogs.com/yukiwu/p/10975337.html),[博客2](https://www.cnblogs.com/yukiwu/p/11271515.html ......

    uj5u.com 2023-06-08 07:55:01 more
  • 【python基礎】回圈陳述句-while回圈

    # 1.初識while回圈 回圈陳述句主要的作用是在多次處理具有相同邏輯的代碼時使用。while回圈是Python提供的回圈陳述句之一。 while回圈的語法格式之一: ![image](https://img2023.cnblogs.com/blog/3179433/202306/3179433-20 ......

    uj5u.com 2023-06-08 07:54:50 more
  • 【pandas基礎】--資料統計

    在進行統計分析時,`pandas`提供了多種工具來幫助我們理解資料。 `pandas`提供了多個聚合函式,其中包括均值、標準差、最大值、最小值等等。 此外,`pandas`還可以進行基于列的統計分析,例如通過`groupby()`函式對資料進行聚合,并計算每組的統計分析結果。 除了基本的統計分析之外 ......

    uj5u.com 2023-06-08 07:54:42 more
  • 【技識訓累】Python中的Pandas庫【二】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-08 07:54:38 more
  • 【python基礎】if陳述句-處理串列

    通過結合使用if陳述句和串列,可以完成一些程式上的需求,比如,對串列中特定的值做特殊處理 # 1.測驗特殊值 比如我們有一個學員名單,其中'劉柏宏'入學比較晚,需要我們重點關注,撰寫程式如下所示: ![image](https://img2023.cnblogs.com/blog/3179433/20 ......

    uj5u.com 2023-06-08 07:54:29 more
  • IO流 p11 Properties

    **# Properties類** - **基本介紹** ![](https://img2023.cnblogs.com/blog/3008601/202306/3008601-20230604103622859-1793594469.png) 1. 專門用于讀寫組態檔的集合類 組態檔的格式: ......

    uj5u.com 2023-06-08 07:54:02 more