很多小伙伴總是問我,資料來源怎么找啊,怎么抓包,其實很簡單,多操作幾遍就記住了,
今天咱們通過三個案例來展示一下
某牙直播抓包
首先咱們進入目標網頁,隨便找一個視頻,通過開發者工具抓包分析,
首先按F12或者點擊右鍵選擇檢查,打開開發者工具,依次選擇 network(網路面板) → AII (全部)
然后重繪網頁,讓當前網頁內容重新加載出來,

以前是可以直接選擇 media (媒體檔案)就能看到了,現在不行了,所以說,互聯網更新迭代很快,網站經常更新,技術也需要時刻準備更新,我們也是學習不能停,一停就落伍,

但是重繪后的資料太多,我們如何確定哪一條是咱們的目標呢?
以當前某牙為例, 視頻改成了m3u8格式,它會把完整視頻分成很多個視頻片段,這些ts檔案都是m3u8格式視頻片段,

我們把URL復制到新視窗打開,它就直接把片段下載下來了,

我們完整的視頻是2.26分,但是每一個片段只有幾秒鐘,

那么計算一下,平均一個五秒,2.26分差不多要17個視頻,還得自己手動合并,多麻煩,
但是它有一個專門的m3u8格式的檔案,保存了所有的ts檔案內容,
我們直接點擊左上角搜索框,直接搜索 m3u8 ,然后看到一個get開頭的檔案,點擊它,再點擊preview (預覽資料) ,視頻的標題等資訊都可以看到,

找到這個 definitions 展開 ,m3u8的視頻就在里面了,原畫、超清、流暢,
可以看到,它也有完整的url地址在這,可以直接用,

我都注釋一下吧

這是直播視頻的資料查找方式
這三個案例的爬蟲代碼我都準備好了,點擊藍色字體自取
接下來看看微博視頻
某博抓包
第一步詳細介紹,后面就不做太多截圖一一展示了,只展示大概流程了,所以如果忘了,建議多看看第一步的,當然,兩個網站之間不一樣的地方,我都會一一截圖展示,
確定目標網址,打開一個視頻播放頁面,


有點過份暴露,這是我沒想到的,簡單的打個碼,
按F12 打開開發者工具,點擊network 點擊Aii ,重繪網頁,
然后此時發生了一件愉快的事情??
重繪一下視頻不見了,于是我又去搜博主名字

啊這 ??
我太南了,算了 ,換一個吧…
編輯推薦的每一個都很給力,我先用第四個給你們展示吧,展示完,我再都去看一遍??

好了,咱們言歸正傳,
對于絕大部分網站來說,他的第一個資料包就是當前網頁,除了一少部分特殊網址不一樣,

今天的目標它的視頻不一定在第一個網頁源代碼中,即使復制了url能進入,也還是不一定在,
因為有一些資料,它是會動態加載的,或者說不在同一個資料包里面,
第二種方法,我們把當前目標的標題復制到搜索框,然后回車,當然,也有可能搜不到,
第三種方法,我們直接點擊 fetch/XHR 動態資料抓包,這里面是實時加載的,

我真的會謝,視頻又沒了…
算了,我再找新的吧,
我們可以看到,左邊有那么多資料,那么誰才是我們需要的呢?

這時候需要我們一個個點,一般是這兩個,有時候也不一定,所以需要一個個點,

然后點擊右邊的倒三角,一一展開,往下拉,找到這個urls,就可以看到視頻地址了,各個清晰度的都有,
然后視頻的ID 、標題等等都在這里,
為什么說要一個個點,你看這兩個長得一樣的, 我剛剛點的是第一個,現在看看第二個,
這里面都是右邊推薦欄的封面,標題,視頻id等等,

某手短視頻抓包
接下來來到某手,這次咱們正經一點,找個正經的視頻來示范,

emmm … 這個正經多了,我們直接進入主頁,
還是一樣的操作,打開開發者工具,點開network,重繪,選擇AII ,
這次咱們直接復制這個小姐姐的名字搜索
搜索之后,這里有兩個一樣的選項,咱們需要一個個點擊打開看看,確定哪一個是咱們需要的,
一個是博主的ID簡介等等,另外一個就是視頻的資料了,
這里我直接點第一個graphql → preview 總共是21個視頻,可以看到,下圖最下方的protourl就是視頻的url,photoH265Url 則是音頻url ,

為什么只有21個?因為沒加載出來,重繪后默認只給你加載那么多,所以爬的時候,可以用selenium自動翻頁,就能自己加載了,
最后給大家推薦一套視頻正好實戰一下:代碼總是學完就忘記?100個爬蟲實戰專案!讓你沉迷學習丨學以致用丨下一個Python大神就是你!
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/502830.html
標籤:其他
上一篇:什么?python做了一個尬聊機器人,這不得學習一波~
下一篇:day27--Java集合10
