- 瀏覽器打開網頁的程序就是爬蟲獲取資料的程序,兩者是一樣一樣的,瀏覽器渲染的網頁是豐富多彩的資料集合,而爬蟲得到的是網頁的源代碼htm有時候,我們不能在網頁的html代碼里面找到想要的資料,但是瀏覽器打開的網頁上面卻有這些資料,這就是瀏覽器通過ajax技術異步加載(偷偷下載)了這些資料,
大家禁不住要問:那么該如何看到瀏覽器偷偷下載的那些資料呢?
答案就是谷歌Chrome瀏覽器的F12快捷鍵,也可以通過滑鼠右鍵選單“檢查”(Inspect)打開Chrome自帶的開發者工具,開發者工具會出現在瀏覽器網頁的左側或者是下面(可調整),它的樣子就是這樣的:

讓我們簡單了解一下它如何使用:
谷歌Chrome抓包:1. 最上面一行選單
左上角箭頭 用來點擊查看網頁的元素
第二個手機、平板圖示是用來模擬移動端顯示網頁
Elements 查看渲染后的網頁標簽元素
提醒 是渲染后(包括異步加載的圖片、資料等)的完整網頁的html,不是最初下載的那個html,
Console 查看JavaScript的console log資訊,寫網頁時比較有用
Sources 顯示網頁原始碼、CSS、JavaScript代碼
Network 查看所有加載的請求,對爬蟲很有幫助
后面的暫且不管,
谷歌Chrome抓包:2. 重要區域
圖中紅框的兩個按鈕比較有用,編號為2的是清空請求記錄;編號3的是保持記錄,這在網頁有重定向的時候很有用
圖中綠色區域就是加載完整個網頁,瀏覽器的全部請求記錄,包括網址、狀態、型別等,寫爬蟲時,我們就要在這里尋找線索,提煉金礦,
最下面編號為4的紅框顯示了加載這個網頁,一共請求了181次,數量是多么地驚人,讓人不禁心疼七瀏覽器來,
點擊一條請求的網址,右側就會出現新的視窗顯示該條請求的相信資訊:

圖中左邊紅框就是點擊的請求網址;綠框就是詳情視窗,
詳情視窗包括,Headers(請求頭)、Preview(預覽回應)、Response(服務器回應內容)和Timing(耗時),
Preview、Response 幫助我們查看該條請求是不是有爬蟲想要的資料;
Headers幫助我們在爬蟲中重建http請求,以便爬蟲得到和瀏覽器一樣的資料,
了解和熟練使用Chrome的開發者工具,大家就如虎添翼可以順利寫出自己的爬蟲啦,
最后注意:光理論是不夠的,這里順便免費送大家一套2020最新python入門到高級專案實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,還可以跟老司機交流討教!
本文的文字及圖片來源于網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/141172.html
標籤:Python
