前言
一. 資料來源分析
- 明確需求, 我們采集網上什么資料內容, 在什么地方
- 分析我們想要高清原圖在什么地方有
- 瀏覽器自帶工具: 開發者工具 F12
- 滑鼠右鍵點擊 插件 選擇 network 重繪網頁
- 點擊選擇 Img 可以直接找到圖片地址
- 通過搜索分析, 可以知道, 我們想要圖片原圖url 就在 圖片詳情頁網頁源代碼里面
二. 代碼大概實作步驟
- 發送請求, 模擬瀏覽器對于 圖片目錄頁面 發送請求
- 獲取資料, 獲取服務器回傳回應資料
- 決議資料, 提取我們想要資料內容
- 發送請求, 模擬瀏覽器對于 圖片詳情頁url 發送請求
- 獲取資料, 獲取服務器回傳回應資料
- 決議資料, 提取我們想要資料內容
- 保存資料, 把圖片保存文本檔案夾
對于本篇文章有疑問的同學可以加【資料白嫖、解答交流群:753182387】
代碼實作
匯入模塊
import requests
import re
請求資料
url = f'https://m.bcoderss.com/tag/漫畫/page/1/'
# 模擬瀏覽器 --> headers 請求頭
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 發送請求
response = requests.get(url=url, headers=headers)
<Response [200]> 表示請求成功
決議資料, 提取我們想要資料內容
提取詳情頁url地址
img_info = re.findall('<li><a target="_blank" href="https://www.cnblogs.com/qshhl/archive/2022/10/24/(.*?)" alt="(.*?)" title=".*?">', response.text)
for回圈遍歷 把串列里面元素 一個一個提取出來
for img, title in img_info:
html_data = requests.get(url=img, headers=headers).text
# 提取原圖url地址
img_url = re.findall('<img alt=".*?" title=".*?" src="https://www.cnblogs.com/qshhl/archive/2022/10/24/(.*?)">', html_data)[0]
獲取二進制資料
img_content = requests.get(url=img_url).content
替換特殊字符
img_title = title + img_url.split('/')[-1]
img_title = re.sub(r'[\/:*?:<>|]', '_', img_title)
保存資料
with opythonpen('img漫畫\\' + img_title, mode='wb') as f:
f.write(img_content)
print(img_url, img_title)
運行代碼


轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/519121.html
標籤:其他
上一篇:資料型別
下一篇:驅動開發:內核無痕隱藏自身分析
