前言
最近追了兩部劇,一個是《如此可愛的我們》,青梅竹馬型別青春劇,一共16集,兩次更新就完結了,全程就甜甜甜,另外一個是剛看的《琉璃》,看了兩集,內容大概是上輩子的仇人,這輩子下凡歷劫相愛了???(流氓解讀法)
不百度不知道,這劇居然要59集,從這刻開始我打算棄劇了,太長了,小說改編,新人出演吧(?)
目前非會員可以看到第七集,因為我不是高貴的芒果會員,所以只看這七集的彈幕內容,這次搞的內容多一點,看起來我不是那么敷衍,
PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取
可以免費領取原始碼、專案實戰視頻、PDF檔案等
開始動手
1.尋找帶彈幕資料的json檔案 點到播放頁面-【查看源代碼】-【Network】-【XHR】-【x.json】
2.打開url(找不到"x.json"多翻幾次)
火狐瀏覽器打開的json檔案格式看起來結構比較清晰,以下是谷歌瀏覽器打開的:
3.找規律
https://bullet-ali.hitv.com/bullet/2020/08/11/124238/9552358/1.json第一集
https://bullet-ali.hitv.com/bullet/2020/08/11/124021/9552380/2.json第二集
https://bullet-ws.hitv.com/bullet/2020/08/11/124249/9552439/3.json第六集
看不同劇集url,只有后部分數字不一樣,第六集的前部分換成前二集的所得內容也完全相同的,x.json中的數字數是分鐘數,如
哈哈哈哈哈,寫著寫著改變主意了,就看看第一集、第二集、第六集的彈幕吧,不然還要一集一集的等廣告,
我們獲取:
id、uname、彈幕內容content、發布時間time、彈幕點贊數v2_up_count
4.程式
import requests
import json
import pandas as pd
# 提取某一集的彈幕
def get_danmu(num1, num2, page):
try:
url = 'https://bullet-ali.hitv.com/bullet/2020/08/11/{}/{}/{}.json'
danmuurl = url.format(num1, num2, page)
res = requests.get(danmuurl)
res.encoding = 'utf-8'
jd = json.loads(res.text)
except:
print("無法連接")
details = []
for i in range(len(jd['data']['items'])): # 彈幕資料在json檔案'data'的'items'中
result = {}
result['stype'] = num2 # 通過stype可識別期數
result['id'] = jd['data']['items'][i]['id'] # 獲取id
try: # 嘗試獲取uname
result['uname'] = jd['data']['items'][i]['uname']
except:
result['uname'] = ''
result['content'] = jd['data']['items'][i]['content'] # 獲取彈幕內容
result['time'] = jd['data']['items'][i]['time'] # 獲取彈幕發布時間
try: # 嘗試獲取彈幕點贊數
result['v2_up_count'] = jd['data']['items'][i]['v2_up_count']
except:
result['v2_up_count'] = ''
details.append(result)
return details
# 輸入關鍵資訊
def count_danmu():
danmu_total = []
num1 = input('第一個數字')
num2 = input('第二個數字')
page = int(input('輸入總時長'))
for i in range(page):
danmu_total.extend(get_danmu(num1, num2, i))
return danmu_total
def main():
danmu_end = []
# 爬前7集,設定回圈7次
for j in range(3):
danmu_end.extend(count_danmu())
df = pd.DataFrame(danmu_end)
df.to_excel('liuli.xlsx')
if __name__ == '__main__':
main()
5.結果
這幾集的彈幕總共有32574條,
- 彈幕中頂著哪個角色發的彈幕最多
大家都貪圖男色吧!
- 高贊彈幕說什么(點贊200以上視為高贊)前面兩集男主說話是結巴的,宮主呢好像是類似掌門一樣的稱號,
高贊基本都是圍繞劇情搞笑的部分,
- 整體彈幕
本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
作者:努力學習的渣渣哦
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/55132.html
標籤:Python
