
前言
我們先爬些簡單點的內容,爬取汽車之家旅行家中的所有游記資訊,讓我們愉快地開始吧~
開發工具
Python版本:3.6.4
相關模塊:
scrapy模塊,
環境搭建
安裝Python并添加到環境變數,pip安裝需要的相關模塊即可,
資料推薦
scrapy入門教程:
https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
Scrapy框架入門簡介:
https://segmentfault.com/a/1190000013178839
原理簡介
首先,我們在cmd視窗輸入下圖所示的命令,從而新建一個爬蟲專案:
我們需要爬的網站是:
https://you.autohome.com.cn/index/searchkeyword#pvareaid=2174276¤tView=best
簡單抓包就可以發現這個:
那么我們就爬這個,我們可以發現這個ajax請求回傳的資料有:
該頁所有游記的標題、摘要、日期、瀏覽量等等,
OK,明確了爬取目標之后,我們就可以開始寫代碼了,首先,打開爬蟲專案里的item.py檔案,定義一下我們要爬取的內容:
然后打開setting.py檔案,定義一下請求頭,并選擇不遵守robots協議:
最后,在spiders檔案夾內新建一個spider.py檔案,并在該檔案內撰寫我們的爬蟲代碼:
文章到這里就結束了,感謝你的觀看,關注我每天分享Python模擬登錄系列,下篇文章分享爬取并簡單分析安居客租房資訊,
為了感謝讀者們,我想把我最近收藏的一些編程干貨分享給大家,回饋每一個讀者,希望能幫到你們,
干貨主要有:
① 2000多本Python電子書(主流和經典的書籍應該都有了)
② Python標準庫資料(最全中文版)
③ 專案原始碼(四五十個有趣且經典的練手專案及原始碼)
④ Python基礎入門、爬蟲、web開發、大資料分析方面的視頻(適合小白學習)
⑤ Python學習路線圖(告別不入流的學習)
All done~完整源代碼+干貨詳見個人簡介或者私信獲取相關檔案,,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/285595.html
標籤:Python
