8個案例,無一過時
- 案例 20:慕課網免費課程抓取
- 案例 21:網易云課堂資料采集
- 案例 22:CSDN 學院課程資料采集
- 案例 23:石家莊鏈家租房資料抓取
- 案例 24:微醫掛號網醫生資料抓取
- 案例 25:知乎文章圖片爬取器之一
- 案例 26:知乎文章圖片爬取器之二
- 案例 27:微醫掛號網專家團隊資料抓取
- 案例 28:虎嗅網文章資料抓取
- 今日復盤結論
- 收藏時間
案例 20:慕課網免費課程抓取
案例地址:https://dream.blog.csdn.net/article/details/83658088
本案例使用的是 requests + pyquery,資料存盤為 mongodb,
案例間隔 3 年,依舊可用,平臺穩定,代碼有效,
案例 21:網易云課堂資料采集
案例地址:https://dream.blog.csdn.net/article/details/83787417
本案例使用的是 requests 中的 post 請求,資料獲取直接呼叫服務器回傳 JSON 格式資料,
存盤資料使用的是 mongodb,
案例因為著作權問題,其中部分重要資料已經被隱藏,測驗后發現介面 https://study.163.com/p/search/studycourse.json 依舊可用,顧代碼可繼續使用學習,
案例 22:CSDN 學院課程資料采集
案例地址:https://dream.blog.csdn.net/article/details/83824019
本案例使用的模塊包含 asyncio,aiohttp,lxml,資料存盤到 mongodb 中,
復盤程序發現串列分頁發生了變化,具體如下,其它核心思路無變化,繼續學習即可,
https://edu.csdn.net/course?page=1
https://edu.csdn.net/course?page=2
https://edu.csdn.net/course?page=3
案例 23:石家莊鏈家租房資料抓取
案例地址:https://dream.blog.csdn.net/article/details/84029492
本案例使用的模塊包含 fake_useragent,lxml,asyncio,aiohttp,pandas,
代碼可用,繼續學習吧,
案例 24:微醫掛號網醫生資料抓取
案例地址:https://dream.blog.csdn.net/article/details/84072554
本案例使用的模塊包含 pyppeteer ,pyquery,asyncio
從本案例開始,爬蟲 100 例各種第三方模塊逐步進行了擴展,
目標網站存在,案例可用,
案例 25:知乎文章圖片爬取器之一
案例地址:https://dream.blog.csdn.net/article/details/84229219
竟然是對知乎發起了采集,當前膽量可以呀,
本案例使用的模塊包含 requests ,fake_useragent,pymongo
測驗了一下,代碼無問題,精簡版的如下所示:
import requests
class ZhihuOne(object):
def __init__(self, totle):
self._offset = 0
self._totle = totle
#self._ua = UserAgent()
def run(self):
print("正在抓取 {} 資料".format(self._offset))
headers = {
"upgrade-insecure-requests": "1",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"
}
with requests.Session() as s:
try:
with s.get("https://www.zhihu.com/api/v4/questions/292393947/answers?include=comment_count,content,voteup_count,reshipment_settings,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;data[*].author.follower_count,badge[*].topics&limit=5&offset={}&sort_by=default".format(self._offset), headers=headers, timeout=3) as rep:
data = rep.json()
print(data)
except Exception as e:
print(e.args)
finally:
if self._offset <= self._totle:
self._offset = self._offset + 5 # 每次+5
print("防止被辦,休息3s")
self.run()
else:
print("所有資料獲取完畢")
if __name__ == '__main__':
# 偏移量是0,5,10 i=1 (i-1)*5
zhi = ZhihuOne(1084)
zhi.run()
案例 26:知乎文章圖片爬取器之二
案例地址:https://dream.blog.csdn.net/article/details/84280916
案例可用,核心目標是采集知乎文章中的圖片,整體還不錯,
案例 27:微醫掛號網專家團隊資料抓取
案例地址:https://dream.blog.csdn.net/article/details/84328092
本案例開始使用了一款 Web 端的可視化爬蟲庫,pyspider,
目標站點依舊可用,顧本案例可正常學習,
復盤程序發現有大佬還在學習,還有一個漏掉的評論,

案例 28:虎嗅網文章資料抓取
案例地址:https://dream.blog.csdn.net/article/details/84556156
復盤發現 API 的請求地址已經發生變化,現介面地址如下:
https://article-api.huxiu.com/web/article/articleList
請求引數也進行了更換,
platform: www
recommend_time: 1627999149
pagesize: 22
代碼實作思路基本一致,介面與引數進行更換即可復現本案例,
今日復盤結論
今日復盤了 8 個案例,令人欣喜的是 100% 可用,這更證明了《爬蟲 100 例》案例選擇的正確與準確性,一起來學習吧,
良心博主,竟然 3 年不掉線,
收藏時間
本期博客收藏過 400,立刻更新下一篇
今天是持續寫作的第 194 / 200 天,
可以關注我,點贊我、評論我、收藏我啦,
更多精彩
- Python 爬蟲 100 例教程導航帖(抓緊訂閱啦)
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/292238.html
標籤:其他
上一篇:??三萬字《C/C++面試突擊200題》四年面試官爆肝整合??(附答案,建議收藏)
下一篇:TCP/IP協議詳解
