前言
本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
coder 謝公子 | 作者
一只有想法的爬蟲 | 來源
小編我一直都有看新聞的習慣,覺得看新聞挺花時間的,其實我只需要知道今天發生了什么事就好了,如果對某個新聞感興趣再具體的去查看即可,
難度:?
環境
python3.7.3、requests、lxml
受害者網站
aHR0cHM6Ly90b3BodWIudG9kYXkv
目標
這里有各個網站當前最新的熱點新聞,這次的目標就是要把微博、知乎、微信、百度這四個平臺的熱點新聞爬取下來
分析
做爬蟲的第一步,當然是查看請求(查看是否為Ajax加載、是否需要逆向解決請求的引數)
可以看到沒有xhr請求(也就是異步請求),不是異步請求的話就比較好獲取,
在第一個請求可以看到我們需要的資料,也沒有加密引數可以直接獲取
我們只需要微博、知乎、微信、百度的頭5條新聞
正常的xpath定位資料就好了
實作代碼:
etree = html.etree
response = requests.get(url, headers=headers)
a = etree.HTML(response.text)
number = [1, 6, 5, 2]
name = ['微博', '知乎', '微信', '百度']
for x, y in zip(number, name):
print(y)
ranking = a.xpath(f'//div[@id="node-{x}"]/div/div[2]/div/a/div/span[1]/text()')[:5]
title = a.xpath('//div[@id="node-1"]/div/div[2]/div/a/div/span[2]/text()')[:5]
heat = a.xpath('//div[@id="node-1"]/div/div[2]/div/a/div/span[3]/text()')[:5]
for i in zip(ranking, title, heat):
print(f'{i[0]}、 {i[1]} \t熱度:{i[2]}')
再結合之前的郵件,可以把結果直接發送到手機上查看,把程式設為每天運行即可,查找任務計劃程式
創建新的任務
設定常規、觸發器、操作
這篇爬蟲其實沒什么難度就是入門級的,多練幾次就能很快的獲取資料,主要是想介紹一下如何將程式設為每天自動運行
PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取
可以免費領取原始碼、專案實戰視頻、PDF檔案等
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/5080.html
標籤:Python
下一篇:Python爬取各大汽車銷量資訊
