本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理，

以下文章來源于資料STUDIO ，作者龍哥帶你飛

Python分析抖音用戶行為資料視頻講解地址

https://www.bilibili.com/video/BV1yp4y1q7ZC/

資料獲取是資料分析中的重要的一步，資料獲取的途徑多種多樣，在這個資訊爆炸的時代，資料獲取的代價也是越來越小，因此如此，仍然有很多小伙伴們無法如何獲取有用資訊，此處以最近的熱播排行榜第一名的《流金歲月》為例，手把手教你如何獲取愛奇藝電視劇彈幕資料，

尋找彈幕資訊

愛奇藝的彈幕資料已通過.z形式的壓縮檔案存在，先通過以下步驟找到彈幕url, tvid串列，再獲取壓縮檔案，利用工具對獲取的壓縮檔案進行解壓，處理，存盤及分析，

絕對，實行多頁爬取，需要分析url規律，利用url規律回圈請求并獲取所需內容，

此彈幕檔案url地址為
https://cmts.iqiyi.com/bullet/93/00/6024766870349300_300_1.z
其中tvid = 6024766870349300

url普適形式為
url ='https:
//cmts.iqiyi.com/bullet/{ }/{}/{ }_300_{}.z '其中第一個與第二個花括號內容是tvid后3、4位，，后1、2位，第三個花括號為tvid，第四個花括號為子檔案序號，其不是一個無窮大的數，會根據不同的電視劇有不同的最大數，

獲取彈幕檔案

可以利用瀏覽器通過url直接請求，并獲取結果，

輸入網址可獲取彈幕內容的壓縮檔案檔案，

利用解壓/壓縮包zlib對下載下來的壓縮檔案進行解壓查看，

import zlib
from bs4 import BeautifulSoup
with open(r"C:\Users\HP\Downloads\6024766870349300_300_10.z", 'rb') as fin:
    content = fin.read()
btArr = bytearray(content)
xml=zlib.decompress(btArr).decode('utf-8')
bs = BeautifulSoup(xml,"xml")
bs

輸出

因此tvid只要獲得就能輕松獲取該電視劇的彈幕檔案資料，

import zlib
from bs4 import BeautifulSoup
import pandas as pd
import requests
def get_data(tv_name,tv_id):
    """
    獲取每集的tvid
    :param tv_name: 集數，第1集、第2集...
    :param tv_id: 每集的tvid
    :return: DataFrame, 最終的資料
    """
    base_url = 'https://cmts.iqiyi.com/bullet/{}/{}/{}_300_{}.z'
    # 新建一個只有表頭的DataFrame
    head_data = https://www.cnblogs.com/hhh188764/p/pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])
    for i in range(1,20):
        url = base_url.format(tv_id[-4:-2],tv_id[-2:],tv_id,i)
        print(url)
        res = requests.get(url)
        if res.status_code == 200:
            btArr = bytearray(res.content) 
            xml=zlib.decompress(btArr).decode('utf-8') # 解壓壓縮檔案
            bs = BeautifulSoup(xml,"xml") # BeautifulSoup網頁決議
            data = https://www.cnblogs.com/hhh188764/p/pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])
            data['uid'] = [i.text for i in bs.findAll('uid')]
            data['contentsId'] = [i.text for i in bs.findAll('contentId')]
            data['contents'] = [i.text for i in bs.findAll('content')]
            data['likeCount'] = [i.text for i in bs.findAll('likeCount')]
        else:
            break
        head_data = pd.concat([head_data,data],ignore_index = True)
    head_data['tv_name']= tv_name
    return head_data

獲取tvid

上文已通過tvid獲取到了彈幕檔案資料，那么如何獲取tvid又變成了一個問題，莫急，我們繼續分析，直接Ctrl + F搜索tvid

因此可以直接從回傳結果中通過正則運算式獲取tvid，

from requests_html import HTMLSession, UserAgent
from bs4 import BeautifulSoup
import re
def get_tvid(url):
    """
    獲取每集的tvid
    :param url: 請求網址
    :return: str, 每集的tvid
    """
    session = HTMLSession()   #創建HTML會話物件
    user_agent = UserAgent().random  #創建隨機請求頭
    header = {"User-Agent": user_agent}
    res = session.get(url, headers=header)
    res.encoding='utf-8'
    bs = BeautifulSoup(res.text,"html.parser")
    pattern =re.compile(".*?tvid.*?(\d{16}).*?") # 定義正則運算式
    text_list = bs.find_all(text=pattern) # 通過正則運算式獲取內容
    for t in range(len(text_list)):
        res_list = pattern.findall(text_list[t])
        if not res_list:
            pass
        else:
            tvid = res_list[0]
    return tvid

由此問題tvid，來每一集都有一個tvid，有多少集電視劇就可以獲取多少個tvid，那么問題又來了：獲取tvid時，是通過url發送請求，從回傳結果中獲取，而每一集的url又該如何獲取呢，

獲取每集url

通過元素選擇工具定位到集數選擇資訊，通過硒模擬瀏覽器獲取動態加載資訊，

有小伙伴會說，可以直接直接從回傳內容中獲取此href網址啊，你可以自己動手嘗試下，

云朵君嘗試后得到的結果是href="javascript:void(0);"，因此解決這一問題的方法之一是運用硒模擬瀏覽器獲取js動態加載資訊，

def get_javascript0_links(url, class_name, class_name_father, sleep_time=0.02):
    """
    Selenium模擬用戶點擊爬取url
    :param url: 目標頁面
    :param class_name: 模擬點擊的類
    :param class_name_father： 模擬點擊的類，此類為class_name的父類
    :param sleep_time: 留給頁面后退的時間
    :return: list, 點擊class為class_name進去的超鏈接
    """

    def wait(locator, timeout=15):
        """等到元素加載完成"""
        WebDriverWait(driver, timeout).until(EC.presence_of_element_located(locator))

    options = Options()
#     options.add_argument("--headless")  # 無界面,若你需要查看界面內容，可以將此行注釋掉
    driver = webdriver.Chrome(options=options)
    driver.get(url)

    locator = (By.CLASS_NAME, class_name)
    wait(locator)
    element = driver.find_elements_by_class_name(class_name_father)
    elements = driver.find_elements_by_class_name(class_name)
    link = []
    linkNum = len(elements)
    for j in range(len(element)):
        wait(locator)
        driver.execute_script("arguments[0].click();", element[j]) # 模擬用戶點擊
        for i in range(linkNum):
            print(i)
            wait(locator)
            elements = driver.find_elements_by_class_name(class_name) # 再次獲取元素，預防StaleElementReferenceException
            driver.execute_script("arguments[0].click();", elements[i]) # 模擬用戶點擊
            time.sleep(sleep_time)
            link.append(driver.current_url)
            time.sleep(sleep_time)
            driver.back()
    driver.quit()
    return link

if __name__ == "__main__":
    url = "https://www.iqiyi.com/v_1meaw5kgh3s.html"
    class_name = "qy-episode-num"
    link = get_javascript0_links(url, class_name, class_name_father="tab-bar")
    for i, _link in enumerate(link):
        print(i, _link)

主函式

接下來通過主函式將所有步驟串起，

def main(sleep_second=0.02):
    url = "https://www.iqiyi.com/v_1meaw5kgh3s.html"
    class_name = "select-item"
    class_name_father = "bar-li"
    links = get_javascript0_links(url, class_name, class_name_father)
    head_data = pd.DataFrame(columns=['tv_name','uid','contentsId','contents','likeCount'])
    for num, link in enumerate(links):
        tv_name = f"第{num+1}集"
        tv_id = get_tvid(url=link)
        data = get_data(tv_name,tv_id)
        head_data = pd.concat([head_data,data],ignore_index = True)
        time.sleep(sleep_second)
    return head_data

獲取到的資料結果如下：

>>> data =https://www.cnblogs.com/hhh188764/p/ main()
>>> data.info()
"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246716 entries, 0 to 246715
Data columns (total 5 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   tv_name     246716 non-null  object
 1   uid         246716 non-null  object
 2   contentsId  246716 non-null  object
 3   contents    246716 non-null  object
 4   likeCount   246716 non-null  object
dtypes: object(5)
memory usage: 9.4+ MB
"""
>>> data.sample(10)

詞云圖

先分詞

運用中文分詞庫jieba分詞，并去除撤銷詞，

def get_cut_words(content_series):
    """
    :param content_series: 需要分詞的內容
    :return: list, 點擊class為class_name進去的超鏈接
    """
    # 讀入停用詞表
    import jieba 
    stop_words = [] 
    with open("stop_words.txt", 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            stop_words.append(line.strip())
    # 添加關鍵詞
    my_words = ['倪妮', '劉詩詩', '鎖鎖', '蔣三歲', '陳道明']      
    for i in my_words:
        jieba.add_word(i) 
    # 自定義停用詞
    my_stop_words = ['哈哈哈','哈哈哈哈', '真的']    
    stop_words.extend(my_stop_words)               
    # 分詞
    word_num = jieba.lcut(content_series.str.cat(sep='，'), cut_all=False)
    word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2] # 條件篩選
    
    return word_num_selected

后畫圖

運用升級版詞云圖庫stylecloud可視化彈幕結果，

import stylecloud
from IPython.display import Image 
text1 = get_cut_words(content_series=data.contents)
stylecloud.gen_stylecloud(text=' '.join(text1), collocations=False,
                          font_path=r'?C:\Windows\Fonts\msyh.ttc',
                          icon_name='fas fa-rocket',size=400,
                          output_name='流金歲月-詞云.png')
Image(filename='流金歲月-詞云.png')

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/247495.html

標籤：Python

上一篇：NIO基礎操作

下一篇：【對線面試官】Java NIO

手把手教你如何用Python獲取愛奇藝電視劇彈幕資料

尋找彈幕資訊

獲取彈幕檔案

獲取tvid

獲取每集url

主函式

詞云圖