/1 前言/
平時我們要下載圖片,要要一個一個點擊下載是不是覺得很麻煩?那有沒有更加簡便的方法呢?答案是肯定的,這里我們以天堂網為例,批量下載天堂網的圖片,

/2 專案準備作業/
首先 我們第一步我們要安裝一個pycham的軟體,可以參考這篇文章:Python環境搭建—安利Python小白的Python和Pycharm安裝詳細教程,
天堂網的網址:
https://www.ivsky.com/bizhi/1920x1080/
我們需要下載幾個庫,怎么下載呢?打開pycharm,依次點擊File,再點開Settings,如下圖所示,

打開后會出現這個界面點擊你的專案名字(project:(你的專案名字)),之后在project interpreter下,點擊加號,而后下載我們需要的庫,如下圖所示,

本專案需要用到的是庫是requests、lxml、fake_useragent,如下圖所示,fake_useragent一般是沒有的,需要通過下面的命令進行安裝:
pip install fake_useragent

/3 專案實作/
1、匯入需要的庫(requests,lxml, fake_useragent),
2、我用了封裝方法去實作各個部分的功能,首先要寫一個框架:構造一個類TianTangWebsite ,然后定義一個__init__方法里繼承(self),再定義一個主方法(main),最后實作這個main方法,依次一步一步進行實作,
3、我們把天堂網的網址拿過來,構造請求頭,這里說一下這個UserAgent的獲取方法,在打開天堂網的網站后,按下鍵盤上的F12鍵,之后會進入到開發者模式,之后點開network,如下圖所示,

4、而后隨便點擊一個name,復制header里邊的UserAgent就可以了,

5、我們點擊下一頁的地址觀察網址的變化,如下所示:
https://www.ivsky.com/bizhi/1920x1080/index_2.html
https://www.ivsky.com/bizhi/1920x1080/index_3.html
https://www.ivsky.com/bizhi/1920x1080/index_4.html
很明顯的發現,這個網址的網頁數字一直在變化,我們可以用格式化{}去代替變化的值,類似這樣:
https://www.ivsky.com/bizhi/1920x1080/index_{}.html
6、然后我們用for回圈去遍歷這些網址,代碼如下所示:
def main(self):
for i in range(1,2):#頁數隨機客戶隨便 設定
url=self.url.format(i)
print(url)
7、我們定義這個get_home()方法去請求到這個網址,


9、我們需要決議得到的資料,接下來定義一個xiap的方法,拿到我們請求的網址,接下來就是該專案的關鍵了,
10、至此,針對反爬蟲的措施我們已經提前做好了準備,下一步將進行網頁結構的分析以及網頁圖片地址資料的提取,并針對決議出來的圖片地址予以批量下載,具體實作咱們下篇文章進行詳解,
/4 小結/
本文主要內容為對圖片網站進行了基本簡介,基于 Python 中的爬蟲庫 requests 、lxml、fake_useragent,提前部署了請求頭,模擬瀏覽器,針對反爬蟲的措施我們已經提前做好了準備,
下篇文章將帶大家進行網頁結構的分析以及網頁圖片地址資料的提取,并針對決議出來的圖片地址予以批量下載,敬請期待~~
往期精彩文章推薦:
-
手把手用Python教你如何發現隱藏wifi
-
手把手教你用Python做個可視化的“剪刀石頭布”小游戲
-
手把手教你使用Python批量創建復工證明
想學習更多Python網路爬蟲與資料挖掘知識,可前往專業網站:http://pdcfighting.com/
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/148132.html
標籤:Python
下一篇:網頁獲取
