30分鐘撰寫一個抓取 Unsplash 圖片的 Python爬蟲-有解無憂

我一直想用 Python and Selenium 創建一個網頁爬蟲，但從來沒有實作它，幾天前，我決定嘗試一下，這聽起來可能是挺復雜的，然而撰寫代碼從 Unsplash 抓取一些美麗的圖片還是挺容易的，

PS:很多人在學習Python的程序中，往往因為遇問題解決不了或者沒好的教程從而導致自己放棄，為此我整理啦從基礎的python腳本到web開發、爬蟲、django、資料挖掘等【PDF等】需要的可以進Python全堆疊開發交流.裙：一久武其而而流一思（數字的諧音）轉換下可以找到了，里面有最新Python教程專案可拿,不懂的問題有老司機解決哦，一起相互監督共同進步!

簡易圖片爬蟲的組成部分

Python (3.6.3 或者更新版本)
Pycharm (Community edition 版本就可以)
Requests
Pillow
Selenium
Geckodriver (閱讀下面的說明)
Mozlla Firefox (如果你沒有，去安裝一下)
有效的網路連接 (顯而易見的)
你的 30 分鐘 (可能更少)

簡易圖片爬蟲的制作

把所有東西都安裝好了么？不錯！跟著我們的代碼，我將開始解釋我們每一個爬蟲原料的作用，

第一件事情，我們將把 Selenium webdriver 和 geckodriver 結合起來去打開一個為我們作業的瀏覽器視窗，首先，在 Pycharm 里創建一個專案，根據你的系統下載最新的 geckodriver ，打開下載的壓縮檔案然后把 geckodriver 檔案放到你的專案檔案夾里， Geckodriver 是 Selenium 控制 Firefox 的基礎，因此我們需要把它放到我們專案的檔案夾里面，來讓我們能使用瀏覽器，

接下來我們要做的就是在代碼中匯入 Selenium 的 webdriver 并且連接我們想要連接的 URL，所以讓我們這樣做吧：


from selenium import webdriver
# 你想打開的url地址
url = "https://unsplash.com"
# 用Selenium的webdriver去打開頁面
driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

一個遠程控制的 Firefox 視窗

很簡單，是吧？如果你每一步都操作正確，你已經度過了困難的一部分，你應該看到和上面展示圖片類似的瀏覽器視窗，

接下來，我們應該下滑頁面，這樣在我們下載圖片之前可以加載更多的圖片，我們還需要等待幾秒鐘，以防萬一網路連接緩慢，圖片加載不全，由于 Unsplash 是基于 React 構建的，等待 5 秒鐘似乎是合適的時間，因此我們使用 time 包來進行等待的操作，我們還需要使用一些 Javascript 代碼來滾動頁面，
---?我們將使用 window.scrollTo() 來完成這個，把它們放到一起，你應該得到這樣的代碼：

unscrape.py

import time
from selenium import webdriver

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)
# 滾動頁面，然后等待5秒
driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)

滾動頁面，然后等待 5 秒

在測驗上面的代碼后，你應該看到瀏覽器向下滾動一些，下一件我們需要做的事情是在網頁上找到那些我們想要下載的圖片，在決議 recat 生成代碼后，我發現我們能用 CSS 選擇器在頁面代碼里面定位我們想要的圖片，也許頁面具體的布局和代碼在未來可能會改變，但是在我寫代碼的這個時候我們可以用 #gridMulti img 選擇器來獲取所有出現在螢屏里面的 <img> 標簽元素

我們能用 find_elements_by_css_selector() 得到這些標簽元素的 list 集合，但是我們想要的卻是是每個標簽元素的 src 的屬性，所以，我們可以遍歷 list 集合然后抓取它們:

unscrape.py

import time
from selenium import webdriver

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)
# 選擇圖片標簽元素，列印它們的URL
image_elements = driver.find_elements_by_css_selector("#gridMulti img")
for image_element in image_elements:
    image_url = image_element.get_attribute("src")
    print(image_url)

選擇圖片標簽元素，列印它們的 URL

現在，為了真正得到我們找到的圖片，我們將使用 requests 包和一部分 PIL 包，即 Image，我們還需要使用 io 包里面的 BytesIO 來把圖片寫入一個 ./images/ 的檔案夾，我們要在我們的專案檔案夾里面創建這個檔案，這樣，把所有東西組合在一起，我們需要給每個圖片的 URL 發送一個 HTTP 的 GET 請求，然后使用 Image 和 BytesIO，我們可以在我們得到的回應里面存盤圖片，這里是一個方法來實作這一步驟：

unscrape.py

import requests
import time
from selenium import webdriver
from PIL import Image
from io import BytesIO

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)
image_elements = driver.find_elements_by_css_selector("#gridMulti img")
i = 0

for image_element in image_elements:
    image_url = image_element.get_attribute("src")
    # 發送一個HTTP的GET請求，在回應里面獲取并存盤圖片
    image_object = requests.get(image_url)
    image = Image.open(BytesIO(image_object.content))
    image.save("./images/image" + str(i) + "." + image.format, image.format)
    i += 1

下載圖片

下載一大堆免費的圖片幾乎是你的所有需求了，顯而易見的，除非你想設計圖片原型或者僅僅需要得到隨機的圖片，這個小爬蟲是沒有多大用處的，因此，我花了一些時間，通過增加了更多的特性來提升它：

允許用戶使用命令列引數來指定搜索查詢的內容，同時使用滾動數值引數，這樣允許頁面為下載展示更多的圖片，
可定制化的 CSS 選擇器，
根據搜索查詢定制結果的檔案夾，
根據需要裁剪縮略圖的網址以獲得全高清影像，
基于圖片的 URL 給圖片命名，
在程式結束后關閉瀏覽器視窗，

你可以 (也可能應該) 嘗試自己去實作其中的一些功能，可用的完整版的網頁爬蟲這里，記得去單獨下載 geckodriver 并將其連接到你的專案，就像文章開頭說明的那樣，

限制，思考和未來的改進

這個整體專案都是一個非常簡單的概念驗證，來看看網頁爬蟲是怎么實作完成的，意味著有很多事情可以做，來改善這個小工具：

沒有記錄這些圖片的原始上傳者是一個很不好的主意，Selenium 是絕對有能力來做這些事情的，所以讓每個圖片都帶著作者的名字，
Geckodriver 不應該被放置在專案的檔案夾內，而更應該全域安裝，并成為 PATH 系統環境變數的一部分，
搜索功能很容易地擴展到包括多個查詢，從而可以簡化下載大量圖片的程序，
默認的瀏覽器可以從 Firefox 變成 Chrome 或者甚至 PhantomJS 對這類專案來說會好很多，

總結：很多人在學習Python的程序中，往往因為遇問題解決不了或者沒好的教程從而導致自己放棄，為此我整理啦從基礎的python腳本到web開發、爬蟲、django、資料挖掘等【PDF等】需要的可以進Python全堆疊開發交流.裙：一久武其而而流一思（數字的諧音）轉換下可以找到了，里面有最新Python教程專案可拿,不懂的問題有老司機解決哦，一起相互監督共同進步
本文的文字及圖片來源于網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/196568.html

標籤：Python

上一篇：找python爬蟲小專案？github給你準備好了！

下一篇：Python3(十二) Pythonic與Python雜記