本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理，

作者：努力學習的渣渣哦

來源：膽小鬼

Python爬蟲、資料分析、網站開發等案例教程視頻免費在線觀看

https://space.bilibili.com/523606542

前言

前段時間的《大江大河2》非常火，但是由于《大江大河1》我沒有看過，也就激不起我想看的欲望，但是最近更新的《山海情》，我周五晚上點進去，然后一口氣看了6集原聲版的，22點開始看，每集40min，問幾點睡？

該劇講述了二十世紀九十年代以來，在國家扶貧政策的引導下，在福建的對口幫扶下，西海固的人民群眾移民搬遷，不斷克服各種困難，探索脫貧發展辦法，將風沙走石的“干沙灘”建設成寸土寸金的“金沙灘”的故事，----劇集官方介紹

原聲版就是臺詞是用寧夏那邊的方言講述的，配音版是普通話版的，推薦原聲版的，會更有那種打動人心的感覺，《山海情》講最動人的扶貧故事，

2021年是“十四五”開局之年，也是全面建設社會主義現代化國家新征程開啟之年，還是建黨100周年，《大江大河》、《山海情》作為獻禮片，這么受歡迎，可見拍的質量有多高，同樣題材的還有《跨過鴨綠江》《江山如此多嬌》等，

孔笙導演，正午陽光出品......都是精品，演員每一個都是老戲骨，一點注水的那種演員都沒有，

目前更新到第九集，爬下第一集的彈幕，看看大家都在說什么，

1.找彈幕在哪？

重點是搜索【.z】，不一樣的是找到的“Request URL”打開是個壓縮包，里面含有彈幕內容，所以程式里面會有解壓這一步，

2.程式

import requests
import pandas as pd
import zlib
import re
import time


def get_aiqiyi_danmu(tvid):
    """
    功能：給定tvid，獲取愛奇藝一集的彈幕評論資訊
    """
    # 建立空df
    df_all = pd.DataFrame()


    # 初始page_num
    page_num = 1


    while True:
        # 列印進度
        print(f'正在獲取第{page_num}頁的彈幕資料')


        try:
            # 獲取URL
            url = f'https://cmts.iqiyi.com/bullet/{str(tvid)[-4:-2]}/{str(tvid)[-2:]}/{str(tvid)}_300_{page_num}.z'


            # 添加headers
            headers = {
                'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
            }


            # 發起請求
            try:
                r = requests.get(url, headers=headers, timeout=3)
            except Exception as e:
                print(e)
                r = requests.get(url, headers=headers, timeout=3)


            # 轉換為arrry
            zarray = bytearray(r.content)


            # 解壓字串
            xml = zlib.decompress(zarray, 15+32).decode('utf-8')


            # 用戶名
            name = re.findall('<name>(.*?)</name>', xml)
            # 評論ID
            contentId = re.findall('<contentId>(.*?)</contentId>', xml)
            # 評論資訊
            content = re.findall('<content>(.*?)</content>', xml)
            # 展示時間
            showTime = re.findall('<showTime>(.*?)</showTime>', xml)
            # 點贊次數
            likeCount = re.findall('<likeCount>(.*?)</likeCount>', xml)


            # 保存資料
            df_one = pd.DataFrame({
                'name': name,
                'contentId': contentId,
                'content': content,
                'showTime': showTime,
                'likeCount': likeCount
            })


            # 回圈追加
            df_all = df_all.append(df_one, ignore_index=True)


            # 休眠一秒
            time.sleep(1)


            # 頁數+1
            page_num += 1


        except Exception as e:
            print(e)
            break


    return df_all




# 抓包獲取視頻tvid
tvid_list = [8369497643194100]


episodes_list = ['第一集 '  
                 ]


# 回圈獲取所有集資料
for tvid, episodes in zip(tvid_list, episodes_list):
    print(tvid, episodes)
    # 獲取資料
    df = get_aiqiyi_danmu(tvid=tvid)
    # 插入列
    df.insert(0, 'episodes', episodes)
    # 匯出資料
    df.to_csv(f'df_{episodes}.csv')


只爬取單集輸入tvid就可以了，連續獲取集數需要再獲取url，再從回傳的結果中
獲取tvid

3.結果

遮住的是用戶名稱，

簡單的畫下詞云

總之就是推薦，看完之后覺得現在的生活真美好，沒有什么比以前更苦的年代了，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/250464.html

標籤：Python

上一篇：Python爬蟲教學：爬取上道網專案詳細步驟講解

下一篇：DHCP最佳實踐（三）

最近熱播的電視劇《山海情》好看嗎？爬取視頻彈幕來分析一下

前言

1.找彈幕在哪？

2.程式

3.結果