python爬蟲爬取百度圖片
- 開發環境
- 涉及的知識點
- os
- time
- urllib.error
- quote
- re
- (.*?)
- re.compile(key)
- 代碼實作
開發環境
- 日期:2021.9.11
- 開發環境:python 3.9和pycharm
ps:pycharm今天第一次用,隨著將越來越多開發環境集成到vscode上,感覺太復雜了,配置又不太懂,總是有問題,雖然很喜歡vscode的自由度,但不想折騰了,簡單的開發環境更重要! - 第三方庫:
- requests 2.25.1
- urlibs 1.26.4
涉及的知識點
os
用來實作對檔案的操作
第一個函式:檢測檔案是否存在
第二個函式用來新建檔案
os.path.exists(base_dir)
os.mkdir
time
用來延時,防止封 ip
time,sleep(1)#延時1ms
urllib.error
當圖片網址失效時,用以實作 例外檢測,使程式不中斷,繼續爬下一個圖片,同時輸出例外
try:
# 爬取代碼
except urllib.error.URLError:
print("下載失敗")
quote
URL只允許一部分ASCII字符,其他字符(如漢字)是不符合標準的,此時就要進行編碼,
將搜素內容進行編碼
keyword = quote("貓", encoding='utf-8')
#最終編碼的后的是 %E7%8C%AB (沒看錯就是這樣一串字符)
re
正則運算式
查看百度圖片的原始碼可找到圖片的地址

這里相當于去獲取https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg
注意見面的 r ,所以’ ‘單引號是字串 ,而里面的 雙引號就是單純的雙引號字符
查找的是括號里面的內容
r'thumbURL":"(.*?)"'
"thumbURL":"https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg"
(.*?)
再講講這個
正則運算式中的 .? 或 .+
后邊多一個?表示懶惰模式,
必須跟在*或者+后邊用
如:
<img src="test.jpg" width="60px" height="80px"/>
如果用正則匹配src中內容非懶惰模式匹配
src=".*"
匹配結果是:
src="test.jpg" width="60px" height="80px"
意思是從 =" 往后匹配,直到最后一個 " 匹配結束
懶惰模式正則:
src=".*?"
結果:src="test.jpg"
匹配到第一個"就結束了一次匹配,不會繼續向后匹配,因為他懶惰嘛,
re.compile(key)
預編譯,不用每次find的時候去編譯
代碼實作
首先是import 需要使用的庫
import os
import urllib.request
from urllib.parse import quote
import re
import urllib.error
import requests
import time
首先,不想每次都手動復制cookie,所以先進入百度知道界面獲取 cookie
get_cookie_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/92.0.4515.159 Safari/537.36 "}
get_cookie_html = "https://www.baidu.com/?tn=49055317_4_hao_pg"
get_cookie_target = requests.session()
cookie_target = get_cookie_target.get(get_cookie_html, headers=get_cookie_headers)
cookie = requests.utils.dict_from_cookiejar(cookie_target.cookies)
print(cookie)
然后列印出來可以發現,格式是字典,并不是我們想要的格式
于是,我們將其簡單處理一下變成我們需要的格式
key = []
value = []
result_cookie = ""
for i in cookie.keys():
key.append(i)
for i in cookie.values():
value.append(i)
for i in range(len(key)):
result_cookie += key[i] + '=' + value[i] + ";"
print(result_cookie)
myheaders = {
"Cookie": result_cookie,
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/92.0.4515.159 Safari/537.36 "
}
接下來就是 獲取輸入關鍵字 并建立檔案夾
pic_dir_name = input("輸入想要爬取的主題:")
base_dir = r"C:\Users\dawn\Desktop\百度圖片/"
#pic_dir_name = "貓"
pic_dir = base_dir + pic_dir_name
if os.path.exists(base_dir):
if os.path.exists(pic_dir):
print(pic_dir + " 檔案已存在")
else:
os.mkdir(pic_dir)
else:
os.mkdir(base_dir)
os.mkdir(pic_dir)
這里去建立 圖片的鏈接 和正則運算式
鏈接里面的
pn是值圖片的開始 值 ,0指第一張
rn指每次服務器給你的圖片數量,一次最多60
keyword = quote(pic_dir_name, encoding='utf-8')
start_number = 0
base_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&queryWord=" + keyword + "&word=" + keyword + "&pn%d=&rn=60" % start_number
key = r'thumbURL":"(.*?)"'
pic_url = re.compile(key) # 預編譯
進行回圈,爬取,并保存在檔案夾
number = 1
while start_number < 1800:
response = urllib.request.Request(base_url, headers=myheaders)
result = urllib.request.urlopen(response).read().decode("utf-8")
for i in re.findall(pic_url, result):
print(i)
try:
response = urllib.request.Request(i, headers=myheaders)
pic_result = urllib.request.urlopen(response).read()
with open(pic_dir + "/" + pic_dir_name + str(number) + ".jpg", "wb+") as f:
f.write(pic_result)
number += 1
time.sleep(0.5)
except urllib.error.URLError:
print("下載失敗")
start_number += 60
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/299344.html
標籤:python
