主要講包括網路爬蟲的定義以及如何爬取網站,如何使用幾種庫從網頁中抽取資料,如何通過快取結果避免重復下載的問題,如何通過并行下載來加速資料抓取,如何利用不同的方式從動態網站中抽取資料,如何使用叔叔及導航等表達進行搜索和登錄,如何訪問被驗證碼影像保護的資料,如何使用 Scrapy 爬蟲框架進行快速的并行抓取,以及使用 Portia 的 Web 界面構建網路爬蟲,
全網最全Python必讀書藉合集(PDF檔案免費下載)
目錄
資源與支持
第1章 網路爬蟲簡介
第2章 資料抓取
第3章 下載快取
第4章 并發下載
第5章 動態內容
第6章 表單互動
第7章 驗證碼處理
第8章 Scrapy
第9章 綜合應用
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/168218.html
標籤:其他
