爬蟲 100 例專欄復盤系列第二篇文章
本次要復盤爬蟲 100 例專欄中的,第 5,6,7,8 篇博客,重繪部分案例,以及解答大家在評論區提供的相關問題,
案例五:圖片網爬蟲
原案例學習博客參考:https://dream.blog.csdn.net/article/details/82892288
本案例在本地復盤時,發現目標網站已經消失不見了,又是一個沒有堅持過 3 年的網站,
復盤之后發現本案例整體編碼與思路無問題,評論區有朋友尋求代碼中的一個模塊,即 http_help.py,這次你可以直接去 https://codechina.csdn.net/hihell/scrapy 案例 5 獲取了,
本案例升級為 http://www.jj20.com/bz/ktmh/list_16_1.html 網站,該網站應該也是一個臨時站點,大家可以優先爬取壁紙,在本地做好存盤,以防網站忽然間再次消失,
案例六:蜂鳥網圖片爬取
原案例學習博客參考:https://dream.blog.csdn.net/article/details/82976900
這個案例在測驗的時候,只需要修改一點點就可以用了,而且目標網站也可用,
資料介面的請求引數有一些變化,具體如下:
http://image.fengniao.com/list.php?action=getList&class_id=192&sub_classid=1587&page=1¬_in_id=0
http://image.fengniao.com/list.php?action=getList&class_id=192&sub_classid=1587&page=2¬_in_id=0
其它代碼保持一致即可,測驗了一遍,下載的圖片質量依舊非常高,
代碼下載地址為:https://codechina.csdn.net/hihell/scrapy
案例七:蜂鳥網論壇爬蟲
本案例只需要修改一個正則提取的運算式即可,原案例學習博客參考:https://blog.csdn.net/hihell/article/details/82988649
pic_list_pattern = re.compile('var picList = eval\(\'\(\'\+\'\[(.*?)\]\'\+\'\)\'\);')
其余內容無更改,可以直接去下載代碼,地址為:https://codechina.csdn.net/hihell/scrapy
案例八:蜂鳥網論壇爬蟲
該案例依舊可用,原案例學習博客參考:https://dream.blog.csdn.net/article/details/82995074
今日復盤結論
復盤結果滿意,竟然有 3 個案例依舊可用,可見蜂鳥網的活力,為其點贊,橡皮擦的爬蟲課果然沒選錯,
良心博主,竟然 3 年不掉線,
收藏時間
做個不可能實作的任務吧,收藏過 400,橡皮擦將回復評論區所有人,發一個神秘碼
今天是持續寫作的第 188 / 200 天,
可以關注我,點贊我、評論我、收藏我啦,
更多精彩
- Python 爬蟲 100 例教程導航帖(抓緊訂閱啦)
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/289870.html
標籤:python
上一篇:【爬蟲】Web基礎——回應頭、請求頭、http&https、狀態碼(內含相關資源鏈接)
下一篇:萬字爆肝python基礎知識
