本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理,
作者:努力學習的渣渣哦
來源:膽小鬼
Python爬蟲、資料分析、網站開發等案例教程視頻免費在線觀看
https://space.bilibili.com/523606542
前言
前段時間的《大江大河2》非常火,但是由于《大江大河1》我沒有看過,也就激不起我想看的欲望,但是最近更新的《山海情》,我周五晚上點進去,然后一口氣看了6集原聲版的,22點開始看,每集40min,問幾點睡?
該劇講述了二十世紀九十年代以來,在國家扶貧政策的引導下,在福建的對口幫扶下,西海固的人民群眾移民搬遷,不斷克服各種困難,探索脫貧發展辦法,將風沙走石的“干沙灘”建設成寸土寸金的“金沙灘”的故事,----劇集官方介紹
原聲版就是臺詞是用寧夏那邊的方言講述的,配音版是普通話版的,推薦原聲版的,會更有那種打動人心的感覺,《山海情》講最動人的扶貧故事,
2021年是“十四五”開局之年,也是全面建設社會主義現代化國家新征程開啟之年,還是建黨100周年,《大江大河》、《山海情》作為獻禮片,這么受歡迎,可見拍的質量有多高,同樣題材的還有《跨過鴨綠江》《江山如此多嬌》等,
孔笙導演,正午陽光出品......都是精品,演員每一個都是老戲骨,一點注水的那種演員都沒有,
目前更新到第九集,爬下第一集的彈幕,看看大家都在說什么,
1.找彈幕在哪?
重點是搜索【.z】,不一樣的是找到的“Request URL”打開是個壓縮包,里面含有彈幕內容,所以程式里面會有解壓這一步,
2.程式
import requests import pandas as pd import zlib import re import time def get_aiqiyi_danmu(tvid): """ 功能:給定tvid,獲取愛奇藝一集的彈幕評論資訊 """ # 建立空df df_all = pd.DataFrame() # 初始page_num page_num = 1 while True: # 列印進度 print(f'正在獲取第{page_num}頁的彈幕資料') try: # 獲取URL url = f'https://cmts.iqiyi.com/bullet/{str(tvid)[-4:-2]}/{str(tvid)[-2:]}/{str(tvid)}_300_{page_num}.z' # 添加headers headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36' } # 發起請求 try: r = requests.get(url, headers=headers, timeout=3) except Exception as e: print(e) r = requests.get(url, headers=headers, timeout=3) # 轉換為arrry zarray = bytearray(r.content) # 解壓字串 xml = zlib.decompress(zarray, 15+32).decode('utf-8') # 用戶名 name = re.findall('<name>(.*?)</name>', xml) # 評論ID contentId = re.findall('<contentId>(.*?)</contentId>', xml) # 評論資訊 content = re.findall('<content>(.*?)</content>', xml) # 展示時間 showTime = re.findall('<showTime>(.*?)</showTime>', xml) # 點贊次數 likeCount = re.findall('<likeCount>(.*?)</likeCount>', xml) # 保存資料 df_one = pd.DataFrame({ 'name': name, 'contentId': contentId, 'content': content, 'showTime': showTime, 'likeCount': likeCount }) # 回圈追加 df_all = df_all.append(df_one, ignore_index=True) # 休眠一秒 time.sleep(1) # 頁數+1 page_num += 1 except Exception as e: print(e) break return df_all # 抓包獲取視頻tvid tvid_list = [8369497643194100] episodes_list = ['第一集 ' ] # 回圈獲取所有集資料 for tvid, episodes in zip(tvid_list, episodes_list): print(tvid, episodes) # 獲取資料 df = get_aiqiyi_danmu(tvid=tvid) # 插入列 df.insert(0, 'episodes', episodes) # 匯出資料 df.to_csv(f'df_{episodes}.csv')
只爬取單集輸入tvid就可以了,連續獲取集數需要再獲取url,再從回傳的結果中
獲取tvid
3.結果
遮住的是用戶名稱,
簡單的畫下詞云
總之就是推薦,看完之后覺得現在的生活真美好,沒有什么比以前更苦的年代了,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/250464.html
標籤:Python
下一篇:DHCP最佳實踐(三)

