一、本文撰寫緣由

很久沒有寫過爬蟲，已經忘得差不多了，以爬取p站圖片為著手點，進行爬蟲復習與實踐，

二、獲取網頁原始碼

爬取網頁資料的程序主要用到request庫，一個簡單的網頁爬蟲實作程序大致可以分為一下步驟：

指定爬取url
發起爬取請求
存盤爬取資料

下面以爬取pixiv網站為例，獲取pixiv網站首頁原始碼并存盤到pixiv1.html檔案中，

import requests


if __name__ == "__main__":

    # step 1: 爬取網頁資料

    # 指定url
    url = 'https://www.pixiv.net/'
    # 發起請求
    home_text = requests.get(url).text

    # step 2: 決議爬取資料

    # step 3: 存盤爬取資料
    save_path = './pixiv1.html'
    with open(save_path, 'w', encoding='utf-8') as fp:
        fp.write(home_text)
        print('下載成功！')

經過上述操作，將會在當前目錄下生成一個“pixiv1.html”檔案，雙擊檔案打開，會發現是下圖這樣子，訪問該網站首先需要登錄，所以會跳入到登錄注冊頁面，且頁面都為日文，

針對這個問題，右鍵檢查網頁，進入network，然后重繪頁面，發現有資料更新，點擊查看Headers，發現request headers里面帶有cookie，因此需要偽裝UA，設定請求頭header，將request header復制到代碼塊中，

# 指定url
url = 'https://www.pixiv.net/'
headers = {
    'user-agent': '你的user-agent',
    'referer':'https://www.pixiv.net/',
    'sec-fetch-dest':'document',
    'sec-fetch-mode':'navigate',
    'sec-fetch-site':'same-origin',
    'sec-fetch-user':'1',
    'upgrade-insecure-requests':'1',
    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'cache-control':'max-age=0',
    'cookie': '你的瀏覽器cookie'
}
# 發起請求
home_text = requests.get(url, headers=headers).text

再次打開保存的網頁檔案“pixiv2.html”，發現頁面并不像我們登錄進去的一樣，而是如下圖所示，

小朋友，你是不是有很多問號......

三、爬取單張縮略圖片

由上一個章節可知，首頁的插畫部分并不是首頁的直接原始碼，而是引入了另外的網頁地址和腳本，這里，通過進入到網頁并進行分析，右鍵圖片再點擊檢查獲取圖片地址，該圖片比較小，為縮略圖片，復制圖片地址，并粘貼到瀏覽器的地址欄，可顯示圖片，

根據獲得的圖片的地址，直接對圖片地址進行訪問，獲取圖片資料，并存盤到本地，

import requests

if __name__ == "__main__":
    # 指定url
    url = 'https://i.pximg.net/c/360x360_70/custom-thumb/img/2020/09/19/02/56/19/84460298_p0_custom1200.jpg'
    # 發起請求
    img_data = requests.get(url).content
    # 存盤圖片
    img_path = './1.jpg'
    with open(img_path, 'wb') as fp:
        fp.write(img_data)
        print('下載成功！')

于是名為“1.jpg”的圖片在當前目錄下生成，雙擊打開發現出錯，如下圖所示，

這是因為請求頭資訊缺失，需要添加請求頭，代碼如下：

# 指定url
url = 'https://i.pximg.net/c/360x360_70/custom-thumb/img/2020/09/19/02/56/19/84460298_p0_custom1200.jpg'
# UA偽裝
headers = {
    'user-agent': '你的user-agent',
    'cookie': '你的瀏覽器cookie',
    'referer':'https://www.pixiv.net/',
    'sec-fetch-dest':'document',
    'sec-fetch-mode':'navigate',
    'sec-fetch-site':'same-origin',
    'sec-fetch-user':'1',
    'upgrade-insecure-requests':'1',
    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'cache-control':'max-age=0',

}
# 發起請求
img_data = requests.get(url, headers=headers).content

“1.jpg”檔案生成，雙擊可打開，爬取單張圖片成功，

三、爬取單張高清原圖

1、獲取原圖地址

要爬取原圖，首先還是得獲取圖片地址，點擊插畫的縮略圖，進入插畫的詳情頁面，右鍵插畫圖片inspect網頁，如下圖所示，

點擊左側圖片進入大圖預覽模式，再右鍵inspect網頁，可知右邊紅色框中a標簽的鏈接地址就是插畫的原圖地址，但是復制該地址到瀏覽器地址欄，顯示403狀態碼，這時點擊回傳原始網頁中點擊圖片，進入大圖模式，然后再在瀏覽器地址欄復制地址查看圖片，發現可以成功顯示圖片，

2、爬取高清原圖

先附上爬取原圖的代碼，

import requests

if __name__ == "__main__":
    # step 1: 指定url
    url = 'https://i.pximg.net/img-original/img/2020/09/19/02/56/19/84460298_p0.jpg'
    headers = {
        'referer': 'https://www.pixiv.net/artworks/84460298',
        'user-agent':'你的user-agent'
    }
    # step 2:發起請求
    res_data = requests.get(url, headers = headers)

    # step 3: 存盤資料
    res_code = res_data.status_code
    msg = '下載成功！'
    if res_code == 200 :                    # 請求成功
        img_data = res_data.content
        # 存盤資料
        img_path = './img/5.png'
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(msg)
    else:                                   # 請求失敗
        msg = "下載失敗，回傳狀態碼為："+str(res_code)
        print(msg)

根據上面已經獲取了原圖地址，在請求原圖的程序中需設定headers的referer引數，否則請求不成功，

對于請求，可能存在不成功的情況，可以根據回傳的狀態碼進行判斷，如果狀態為200，那么說明ok，請求成功，否則說明請求不成功，列印狀態碼資訊，

四、批量爬取高清原圖

上述爬取單張圖片相比于“”手動右鍵另存為“，實在耗時費力且非但沒有體現任何爬蟲的優勢，但是如果喜歡這個網站的大多數圖片，并希望可以全部保存到本地，手動就太繁瑣機械了，使用爬蟲可以方便且快速地實作這個操作，

1、分析原圖地址

由上一小節可知，這里是直接通過查看圖片地址，然后獲取多張圖片，要獲取多張圖片，那么一種方法是記錄下所有的圖片地址并保存到檔案，通過讀取檔案中的圖片地址下載圖片;另一種方式是分析圖片地址的邏輯、構成、關系，顯然后者更為科學與便捷，通過右擊多張圖片，獲取如下圖片地址：

https://i.pximg.net/img-original/img/2020/09/20/19/00/02/84495797_p0.jpg
https://i.pximg.net/img-original/img/2020/09/19/18/00/29/84470884_p0.jpg
https://i.pximg.net/img-original/img/2020/09/20/06/17/10/84484828_p0.png
https://i.pximg.net/img-original/img/2020/09/19/00/00/44/84457006_p0.jpg

以第一張圖片地址為例，發現該地址前面的”https://i.pximg.net/img-original/img/“以及后面的”_p0.jpg“為公共部分，僅有中間的”2020/09/19/18/00/29/84470884“與其他圖片地址不同，

通過查看network中XHR的Preview來查看每條xhr資訊的主題內容，獲知以下圖片內容，

上圖中的json資料中包含了不同的圖片資訊，比如最后一條的key參與構成原圖地址和referer，且里面url的內容為原圖的縮略圖地址，具有原圖特殊部分的資訊，因此，可以通過決議該json資料來構造原圖的url，

2、構造原圖地址

首先找到該preview對應的xhr資訊，然后復制request url，進行請求訪問，編碼實作如下：

import requests
import json
import pprint

if __name__ == "__main__":
    # step 1: 指定url
    url = 'https://www.pixiv.net/ajax/user/10797546/illusts?ids%5B%5D=84243244&ids%5B%5D=84089827&ids%5B%5D=83931617&ids%5B%5D=83817260&ids%5B%5D=83774711&ids%5B%5D=83630300&ids%5B%5D=83447790&ids%5B%5D=83294064&ids%5B%5D=83293792&ids%5B%5D=82883638&ids%5B%5D=82210044&ids%5B%5D=81883995&ids%5B%5D=81415445&ids%5B%5D=80789668&ids%5B%5D=79598338&ids%5B%5D=79218284&ids%5B%5D=78917052&ids%5B%5D=78768898&ids%5B%5D=78711808&lang=zh'
    headers = {
    'accept':'application/json',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'cookie':'你的cookie',
    'referer': 'https://www.pixiv.net/artworks/84460298',
    'sec-fetch-dest':'empty',
    'sec-fetch-mode':'cors',
    'sec-fetch-site':'same-origin',
    'user-agent':'你的user-agent',
    }
    # step 2:發起請求
    res_data = requests.get(url, headers = headers)

    # step 3: 查看請求結果
    res_json = res_data.json()
    pprint.pprint(res_json)

運行結果如下所示：

由此可知，該request url就是json資料對應的介面地址，通過訪問該地址，回傳所需要的包含圖片資訊的json資料，

根據顯示的json資料，可知其中包含了不止一個的圖片資訊，通過決議請求結果可以構造多個圖片地址，請求結果回傳的資料為字典型別的資料，真正有用到的是body中的內容，首先或許結果資料的body部分，然后通過list方法可以獲取字典所有的key，即圖片的id，通過定義兩個陣列分別為origin_url_list和origin_title_list，分別保存所有的原圖地址和原圖名稱，通過直接取值的方式獲取圖片的title并添加到串列中，通過正則運算式決議縮略圖的地址來獲取原圖中的特殊部分，然后進行字串拼接獲得原圖地址，最后可以通過列印的方式，檢查構造的資料是否正確，

    # step 3: 決議json資料
    res_json = json_res_data.json()
    res_json_body = res_json['body']                        # 獲取json中的body內容
    id_list = list(res_json_body)                           # 獲取body中的所有的key，即圖片id
    origin_url_list = []                                        # 保存所有的原圖地址
    origin_title_list = []

    # step 4: 構造原圖地址
    for item in id_list:
        # 獲取title
        origin_title_list.append(res_json_body[item]['title'])
        # 通過獲取縮略圖地址構造原圖地址
        thumbnail_url = res_json_body[item]['url']          
        origin_specail_part = re.findall('img/(.*?)_p0',thumbnail_url)[0]
        origin_url_list.append("https://i.pximg.net/img-original/img/%s_p0.jpg" % origin_specail_part)

    # step 4: 列印查看結果是否正確
    i = -1
    for item in origin_url_list:
        # 更新索引
        print(origin_title_list[i]) 
        print(id_list)
        print(item)
        print()

結果如下圖所示：

3、批量爬取原圖

經過上述步驟，可以獲得圖片的網址、標題、referer引數涉及到的圖片id等資訊，然后根據這些資訊，發起請求訪問，然后保存圖片至本地即可，至此，批量爬取圖片成功！

代碼如下：

import requests
import pprint
import json
import re

if __name__ == "__main__":
    # step 1: 指定url
    json_url = 'https://www.pixiv.net/ajax/user/10797546/illusts?ids%5B%5D=84243244&ids%5B%5D=84089827&ids%5B%5D=83931617&ids%5B%5D=83817260&ids%5B%5D=83774711&ids%5B%5D=83630300&ids%5B%5D=83447790&ids%5B%5D=83294064&ids%5B%5D=83293792&ids%5B%5D=82883638&ids%5B%5D=82210044&ids%5B%5D=81883995&ids%5B%5D=81415445&ids%5B%5D=80789668&ids%5B%5D=79598338&ids%5B%5D=79218284&ids%5B%5D=78917052&ids%5B%5D=78768898&ids%5B%5D=78711808&lang=zh'
    json_url_headers = {
        'accept':'application/json',
        'accept-encoding':'gzip, deflate, br',
        'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'cookie':'你的cookie',
        'referer': 'https://www.pixiv.net/artworks/84460298',
        'sec-fetch-dest':'empty',
        'sec-fetch-mode':'cors',
        'sec-fetch-site':'same-origin',
        'user-agent':'你的user-agent',
        'x-user-id':'你的user-id',
    }
    # step 2:發起請求
    json_res_data = requests.get(json_url, headers = json_url_headers)

    # step 3: 決議json資料
    res_json = json_res_data.json()
    res_json_body = res_json['body']                        # 獲取json中的body內容
    id_list = list(res_json_body)                           # 獲取body中的所有的key，即圖片id
    origin_url_list = []                                    # 保存所有的原圖地址
    origin_title_list = []

    # step 4: 構造原圖地址
    for item in id_list:
        # 獲取title
        origin_title_list.append(res_json_body[item]['title'])
        # 通過獲取縮略圖地址構造原圖地址
        thumbnail_url = res_json_body[item]['url']          
        origin_specail_part = re.findall('img/(.*?)_p0',thumbnail_url)[0]
        origin_url_list.append("https://i.pximg.net/img-original/img/%s_p0.jpg" % origin_specail_part)

    # step 4: 遍歷origin_url_list爬取圖片
    i = -1
    for item in origin_url_list:
        # 更新id串列索引
        i = i+1

        # 獲取地址
        origin_url = item
        # 設定headers
        origin_url_headers = {
            'referer': 'https://www.pixiv.net/artworks/%s' % str(id_list[i]),
            'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
        }
        # 發起請求
        img_res = requests.get(origin_url, headers=origin_url_headers)
        img_res_data = img_res.content
        img_res_code = img_res.status_code

        if img_res_code == 200:                 # 如果請求成功
            # 存盤圖片
            img_save_name = str(origin_title_list[i])+".png"
            with open("./img/"+img_save_name, 'wb') as fp:
                fp.write(img_res_data)
                msg = img_save_name+"保存成功！"
                print(msg)
        else:                                   # 否則輸出狀態碼
            msg = "下載失敗！狀態碼為："+ img_res_code
            print(msg)

保存結果如下圖：