一、本文撰寫緣由
很久沒有寫過爬蟲,已經忘得差不多了,以爬取p站圖片為著手點,進行爬蟲復習與實踐,
二、獲取網頁原始碼
爬取網頁資料的程序主要用到request庫,一個簡單的網頁爬蟲實作程序大致可以分為一下步驟:
- 指定爬取url
- 發起爬取請求
- 存盤爬取資料
下面以爬取pixiv網站為例,獲取pixiv網站首頁原始碼并存盤到pixiv1.html檔案中,
import requests
if __name__ == "__main__":
# step 1: 爬取網頁資料
# 指定url
url = 'https://www.pixiv.net/'
# 發起請求
home_text = requests.get(url).text
# step 2: 決議爬取資料
# step 3: 存盤爬取資料
save_path = './pixiv1.html'
with open(save_path, 'w', encoding='utf-8') as fp:
fp.write(home_text)
print('下載成功!')
經過上述操作,將會在當前目錄下生成一個“pixiv1.html”檔案,雙擊檔案打開,會發現是下圖這樣子,訪問該網站首先需要登錄,所以會跳入到登錄注冊頁面,且頁面都為日文,

針對這個問題,右鍵檢查網頁,進入network,然后重繪頁面,發現有資料更新,點擊查看Headers,發現request headers里面帶有cookie,因此需要偽裝UA,設定請求頭header,將request header復制到代碼塊中,
# 指定url
url = 'https://www.pixiv.net/'
headers = {
'user-agent': '你的user-agent',
'referer':'https://www.pixiv.net/',
'sec-fetch-dest':'document',
'sec-fetch-mode':'navigate',
'sec-fetch-site':'same-origin',
'sec-fetch-user':'1',
'upgrade-insecure-requests':'1',
'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'accept-encoding':'gzip, deflate, br',
'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
'cache-control':'max-age=0',
'cookie': '你的瀏覽器cookie'
}
# 發起請求
home_text = requests.get(url, headers=headers).text
再次打開保存的網頁檔案“pixiv2.html”,發現頁面并不像我們登錄進去的一樣,而是如下圖所示,

小朋友,你是不是有很多問號......
三、爬取單張縮略圖片
由上一個章節可知,首頁的插畫部分并不是首頁的直接原始碼,而是引入了另外的網頁地址和腳本,這里,通過進入到網頁并進行分析,右鍵圖片再點擊檢查獲取圖片地址,該圖片比較小,為縮略圖片,復制圖片地址,并粘貼到瀏覽器的地址欄,可顯示圖片,

根據獲得的圖片的地址,直接對圖片地址進行訪問,獲取圖片資料,并存盤到本地,
import requests
if __name__ == "__main__":
# 指定url
url = 'https://i.pximg.net/c/360x360_70/custom-thumb/img/2020/09/19/02/56/19/84460298_p0_custom1200.jpg'
# 發起請求
img_data = requests.get(url).content
# 存盤圖片
img_path = './1.jpg'
with open(img_path, 'wb') as fp:
fp.write(img_data)
print('下載成功!')
于是名為“1.jpg”的圖片在當前目錄下生成,雙擊打開發現出錯,如下圖所示,

這是因為請求頭資訊缺失,需要添加請求頭,代碼如下:
# 指定url
url = 'https://i.pximg.net/c/360x360_70/custom-thumb/img/2020/09/19/02/56/19/84460298_p0_custom1200.jpg'
# UA偽裝
headers = {
'user-agent': '你的user-agent',
'cookie': '你的瀏覽器cookie',
'referer':'https://www.pixiv.net/',
'sec-fetch-dest':'document',
'sec-fetch-mode':'navigate',
'sec-fetch-site':'same-origin',
'sec-fetch-user':'1',
'upgrade-insecure-requests':'1',
'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'accept-encoding':'gzip, deflate, br',
'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
'cache-control':'max-age=0',
}
# 發起請求
img_data = requests.get(url, headers=headers).content
“1.jpg”檔案生成,雙擊可打開,爬取單張圖片成功,
三、爬取單張高清原圖
1、獲取原圖地址
要爬取原圖,首先還是得獲取圖片地址,點擊插畫的縮略圖,進入插畫的詳情頁面,右鍵插畫圖片inspect網頁,如下圖所示,

點擊左側圖片進入大圖預覽模式,再右鍵inspect網頁,可知右邊紅色框中a標簽的鏈接地址就是插畫的原圖地址,但是復制該地址到瀏覽器地址欄,顯示403狀態碼,這時點擊回傳原始網頁中點擊圖片,進入大圖模式,然后再在瀏覽器地址欄復制地址查看圖片,發現可以成功顯示圖片,
2、爬取高清原圖
先附上爬取原圖的代碼,
import requests
if __name__ == "__main__":
# step 1: 指定url
url = 'https://i.pximg.net/img-original/img/2020/09/19/02/56/19/84460298_p0.jpg'
headers = {
'referer': 'https://www.pixiv.net/artworks/84460298',
'user-agent':'你的user-agent'
}
# step 2:發起請求
res_data = requests.get(url, headers = headers)
# step 3: 存盤資料
res_code = res_data.status_code
msg = '下載成功!'
if res_code == 200 : # 請求成功
img_data = res_data.content
# 存盤資料
img_path = './img/5.png'
with open(img_path, 'wb') as fp:
fp.write(img_data)
print(msg)
else: # 請求失敗
msg = "下載失敗,回傳狀態碼為:"+str(res_code)
print(msg)
根據上面已經獲取了原圖地址,在請求原圖的程序中需設定headers的referer引數,否則請求不成功,
對于請求,可能存在不成功的情況,可以根據回傳的狀態碼進行判斷,如果狀態為200,那么說明ok,請求成功,否則說明請求不成功,列印狀態碼資訊,
四、批量爬取高清原圖
上述爬取單張圖片相比于“”手動右鍵另存為“,實在耗時費力且非但沒有體現任何爬蟲的優勢,但是如果喜歡這個網站的大多數圖片,并希望可以全部保存到本地,手動就太繁瑣機械了,使用爬蟲可以方便且快速地實作這個操作,
1、分析原圖地址
由上一小節可知,這里是直接通過查看圖片地址,然后獲取多張圖片,要獲取多張圖片,那么一種方法是記錄下所有的圖片地址并保存到檔案,通過讀取檔案中的圖片地址下載圖片;另一種方式是分析圖片地址的邏輯、構成、關系,顯然后者更為科學與便捷,通過右擊多張圖片,獲取如下圖片地址:
- https://i.pximg.net/img-original/img/2020/09/20/19/00/02/84495797_p0.jpg
- https://i.pximg.net/img-original/img/2020/09/19/18/00/29/84470884_p0.jpg
- https://i.pximg.net/img-original/img/2020/09/20/06/17/10/84484828_p0.png
- https://i.pximg.net/img-original/img/2020/09/19/00/00/44/84457006_p0.jpg
以第一張圖片地址為例,發現該地址前面的”https://i.pximg.net/img-original/img/“以及后面的”_p0.jpg“為公共部分,僅有中間的”2020/09/19/18/00/29/84470884“與其他圖片地址不同,
通過查看network中XHR的Preview來查看每條xhr資訊的主題內容,獲知以下圖片內容,

上圖中的json資料中包含了不同的圖片資訊,比如最后一條的key參與構成原圖地址和referer,且里面url的內容為原圖的縮略圖地址,具有原圖特殊部分的資訊,因此,可以通過決議該json資料來構造原圖的url,
2、構造原圖地址
首先找到該preview對應的xhr資訊,然后復制request url,進行請求訪問,編碼實作如下:
import requests
import json
import pprint
if __name__ == "__main__":
# step 1: 指定url
url = 'https://www.pixiv.net/ajax/user/10797546/illusts?ids%5B%5D=84243244&ids%5B%5D=84089827&ids%5B%5D=83931617&ids%5B%5D=83817260&ids%5B%5D=83774711&ids%5B%5D=83630300&ids%5B%5D=83447790&ids%5B%5D=83294064&ids%5B%5D=83293792&ids%5B%5D=82883638&ids%5B%5D=82210044&ids%5B%5D=81883995&ids%5B%5D=81415445&ids%5B%5D=80789668&ids%5B%5D=79598338&ids%5B%5D=79218284&ids%5B%5D=78917052&ids%5B%5D=78768898&ids%5B%5D=78711808&lang=zh'
headers = {
'accept':'application/json',
'accept-encoding':'gzip, deflate, br',
'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
'cookie':'你的cookie',
'referer': 'https://www.pixiv.net/artworks/84460298',
'sec-fetch-dest':'empty',
'sec-fetch-mode':'cors',
'sec-fetch-site':'same-origin',
'user-agent':'你的user-agent',
}
# step 2:發起請求
res_data = requests.get(url, headers = headers)
# step 3: 查看請求結果
res_json = res_data.json()
pprint.pprint(res_json)
運行結果如下所示: 
由此可知,該request url就是json資料對應的介面地址,通過訪問該地址,回傳所需要的包含圖片資訊的json資料,
根據顯示的json資料,可知其中包含了不止一個的圖片資訊,通過決議請求結果可以構造多個圖片地址,請求結果回傳的資料為字典型別的資料,真正有用到的是body中的內容,首先或許結果資料的body部分,然后通過list方法可以獲取字典所有的key,即圖片的id,通過定義兩個陣列分別為origin_url_list和origin_title_list,分別保存所有的原圖地址和原圖名稱,通過直接取值的方式獲取圖片的title并添加到串列中,通過正則運算式決議縮略圖的地址來獲取原圖中的特殊部分,然后進行字串拼接獲得原圖地址,最后可以通過列印的方式,檢查構造的資料是否正確,
# step 3: 決議json資料
res_json = json_res_data.json()
res_json_body = res_json['body'] # 獲取json中的body內容
id_list = list(res_json_body) # 獲取body中的所有的key,即圖片id
origin_url_list = [] # 保存所有的原圖地址
origin_title_list = []
# step 4: 構造原圖地址
for item in id_list:
# 獲取title
origin_title_list.append(res_json_body[item]['title'])
# 通過獲取縮略圖地址構造原圖地址
thumbnail_url = res_json_body[item]['url']
origin_specail_part = re.findall('img/(.*?)_p0',thumbnail_url)[0]
origin_url_list.append("https://i.pximg.net/img-original/img/%s_p0.jpg" % origin_specail_part)
# step 4: 列印查看結果是否正確
i = -1
for item in origin_url_list:
# 更新索引
print(origin_title_list[i])
print(id_list)
print(item)
print()
結果如下圖所示:

3、批量爬取原圖
經過上述步驟,可以獲得圖片的網址、標題、referer引數涉及到的圖片id等資訊,然后根據這些資訊,發起請求訪問,然后保存圖片至本地即可,至此,批量爬取圖片成功!
代碼如下:
import requests
import pprint
import json
import re
if __name__ == "__main__":
# step 1: 指定url
json_url = 'https://www.pixiv.net/ajax/user/10797546/illusts?ids%5B%5D=84243244&ids%5B%5D=84089827&ids%5B%5D=83931617&ids%5B%5D=83817260&ids%5B%5D=83774711&ids%5B%5D=83630300&ids%5B%5D=83447790&ids%5B%5D=83294064&ids%5B%5D=83293792&ids%5B%5D=82883638&ids%5B%5D=82210044&ids%5B%5D=81883995&ids%5B%5D=81415445&ids%5B%5D=80789668&ids%5B%5D=79598338&ids%5B%5D=79218284&ids%5B%5D=78917052&ids%5B%5D=78768898&ids%5B%5D=78711808&lang=zh'
json_url_headers = {
'accept':'application/json',
'accept-encoding':'gzip, deflate, br',
'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
'cookie':'你的cookie',
'referer': 'https://www.pixiv.net/artworks/84460298',
'sec-fetch-dest':'empty',
'sec-fetch-mode':'cors',
'sec-fetch-site':'same-origin',
'user-agent':'你的user-agent',
'x-user-id':'你的user-id',
}
# step 2:發起請求
json_res_data = requests.get(json_url, headers = json_url_headers)
# step 3: 決議json資料
res_json = json_res_data.json()
res_json_body = res_json['body'] # 獲取json中的body內容
id_list = list(res_json_body) # 獲取body中的所有的key,即圖片id
origin_url_list = [] # 保存所有的原圖地址
origin_title_list = []
# step 4: 構造原圖地址
for item in id_list:
# 獲取title
origin_title_list.append(res_json_body[item]['title'])
# 通過獲取縮略圖地址構造原圖地址
thumbnail_url = res_json_body[item]['url']
origin_specail_part = re.findall('img/(.*?)_p0',thumbnail_url)[0]
origin_url_list.append("https://i.pximg.net/img-original/img/%s_p0.jpg" % origin_specail_part)
# step 4: 遍歷origin_url_list爬取圖片
i = -1
for item in origin_url_list:
# 更新id串列索引
i = i+1
# 獲取地址
origin_url = item
# 設定headers
origin_url_headers = {
'referer': 'https://www.pixiv.net/artworks/%s' % str(id_list[i]),
'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}
# 發起請求
img_res = requests.get(origin_url, headers=origin_url_headers)
img_res_data = img_res.content
img_res_code = img_res.status_code
if img_res_code == 200: # 如果請求成功
# 存盤圖片
img_save_name = str(origin_title_list[i])+".png"
with open("./img/"+img_save_name, 'wb') as fp:
fp.write(img_res_data)
msg = img_save_name+"保存成功!"
print(msg)
else: # 否則輸出狀態碼
msg = "下載失敗!狀態碼為:"+ img_res_code
print(msg)
保存結果如下圖:

寫在最后:
1、本文的圖片爬取在博主so long引導下完成,并參考了其博客P站爬蟲,分析程序批量爬取原圖png,
2、如果讀者你覺得有幫助,可以點亮下方的小拇指,因為博主會很開心你喜歡,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/126510.html
標籤:其他
上一篇:網路設備互聯
