開發環境

日期：2021.9.11
開發環境：python 3.9和pycharm
ps：pycharm今天第一次用，隨著將越來越多開發環境集成到vscode上，感覺太復雜了，配置又不太懂，總是有問題，雖然很喜歡vscode的自由度，但不想折騰了，簡單的開發環境更重要！
第三方庫：

requests 2.25.1
urlibs 1.26.4

涉及的知識點

os

用來實作對檔案的操作
第一個函式：檢測檔案是否存在
第二個函式用來新建檔案

os.path.exists(base_dir)
os.mkdir

time

用來延時，防止封 ip

time，sleep（1）#延時1ms

urllib.error

當圖片網址失效時，用以實作例外檢測，使程式不中斷，繼續爬下一個圖片，同時輸出例外

try:
       # 爬取代碼    
except urllib.error.URLError:
	print("下載失敗")

quote

URL只允許一部分ASCII字符，其他字符（如漢字）是不符合標準的，此時就要進行編碼，

將搜素內容進行編碼

keyword = quote("貓", encoding='utf-8')
#最終編碼的后的是  %E7%8C%AB  （沒看錯就是這樣一串字符）

re

正則運算式
查看百度圖片的原始碼可找到圖片的地址
在這里插入圖片描述
這里相當于去獲取https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg

注意見面的 r ，所以’ ‘單引號是字串，而里面的雙引號就是單純的雙引號字符
查找的是括號里面的內容

r'thumbURL":"(.*?)"'

"thumbURL":"https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg"

(.*?)

再講講這個
正則運算式中的 .? 或 .+

后邊多一個？表示懶惰模式，
必須跟在*或者+后邊用
如：

<img src="test.jpg" width="60px" height="80px"/>

如果用正則匹配src中內容非懶惰模式匹配

src=".*"

匹配結果是：
src="test.jpg" width="60px" height="80px"
意思是從 =" 往后匹配，直到最后一個 " 匹配結束

懶惰模式正則：
src=".*?"
結果：src="test.jpg"
匹配到第一個"就結束了一次匹配，不會繼續向后匹配，因為他懶惰嘛，

re.compile(key)

預編譯,不用每次find的時候去編譯

代碼實作

首先是import 需要使用的庫

import os
import urllib.request
from urllib.parse import quote
import re
import urllib.error
import requests
import time

首先，不想每次都手動復制cookie，所以先進入百度知道界面獲取 cookie

get_cookie_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                                  "Chrome/92.0.4515.159 Safari/537.36 "}
get_cookie_html = "https://www.baidu.com/?tn=49055317_4_hao_pg"
get_cookie_target = requests.session()
cookie_target = get_cookie_target.get(get_cookie_html, headers=get_cookie_headers)
cookie = requests.utils.dict_from_cookiejar(cookie_target.cookies)
print(cookie)

然后列印出來可以發現，格式是字典，并不是我們想要的格式在這里插入圖片描述
于是，我們將其簡單處理一下變成我們需要的格式

key = []
value = []
result_cookie = ""

for i in cookie.keys():
    key.append(i)

for i in cookie.values():
    value.append(i)

for i in range(len(key)):
    result_cookie += key[i] + '=' + value[i] + ";"

print(result_cookie)
myheaders = {
    "Cookie": result_cookie,
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/92.0.4515.159 Safari/537.36 "
}

接下來就是獲取輸入關鍵字并建立檔案夾

pic_dir_name = input("輸入想要爬取的主題：")
base_dir = r"C:\Users\dawn\Desktop\百度圖片/"
#pic_dir_name = "貓"

pic_dir = base_dir + pic_dir_name

if os.path.exists(base_dir):
    if os.path.exists(pic_dir):
        print(pic_dir + "  檔案已存在")
    else:
        os.mkdir(pic_dir)
else:
    os.mkdir(base_dir)
    os.mkdir(pic_dir)

這里去建立圖片的鏈接和正則運算式
鏈接里面的
pn是值圖片的開始值，0指第一張
rn指每次服務器給你的圖片數量，一次最多60

keyword = quote(pic_dir_name, encoding='utf-8')

start_number = 0
base_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&queryWord=" + keyword + "&word=" + keyword + "&pn%d=&rn=60" % start_number
key = r'thumbURL":"(.*?)"'
pic_url = re.compile(key)  # 預編譯

進行回圈，爬取，并保存在檔案夾

number = 1
while start_number < 1800:
    response = urllib.request.Request(base_url, headers=myheaders)
    result = urllib.request.urlopen(response).read().decode("utf-8")
    for i in re.findall(pic_url, result):
        print(i)
        try:
            response = urllib.request.Request(i, headers=myheaders)
            pic_result = urllib.request.urlopen(response).read()
            with open(pic_dir + "/" + pic_dir_name + str(number) + ".jpg", "wb+") as f:
                f.write(pic_result)
            number += 1
            time.sleep(0.5)
        except urllib.error.URLError:
            print("下載失敗")
    start_number += 60

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/299344.html

標籤：python

上一篇：【Leetcode刷題】4. 尋找兩個正序陣列的中位數

下一篇：Python 演算法的時間復雜度和空間復雜度 (實體決議)