首先需要先匯入webdriver
from selenium import webdriver
webdriver支持主流的瀏覽器,比如說:谷歌瀏覽器、火狐瀏覽器、IE瀏覽器等等
然后可以創建一個webdriver物件,通過這個物件就可以通過get方法請求網站
![]()
?
接下來可以定義一個方法:search_product
一、selenium的簡單介紹
1.selenium簡介
selenium是一個用于測驗網站的自動化測驗工具,支持很多主流的瀏覽器,比如:谷歌瀏覽器、火狐瀏覽器、IE、Safari等,
2.支持多個作業系統
如windows、Linux、IOS、Android等,
3、安裝selenium
打開終端輸入
![]()
?
4、安裝瀏覽器驅動
1、Chrome驅動檔案下載: 點擊下載谷歌瀏覽器驅動
2、火狐瀏覽器驅動檔案下載: 點擊下載geckodriver
5、配置環境變數
配置環境變數的方法非常簡單,首先將下載好的驅動進行解壓,放到你安裝Python的目錄下,即可,
因為之前,在配置Python環境變數的時候,就將Python的目錄放到我的電腦–>屬性–>系統設定–>高級–>環境變數–>系統變數–>Path

?
二、selenium快速入門
1、selenium提供8種定位方式
1、id
2、name
3、class name
4、tag name
5、link text
6、partial link text
7、xpath
8、css selector
2、定位元素的8中方式詳解
| 定義一個元素 | 定位多個元素 | 含義 |
|---|---|---|
| find_element_by_id | find_elements_by_id | 通過元素的id定位 |
| find_element_by_name | find_elements_by_name | 通過元素name定位 |
| find_element_by_xpath | find_elements_by_xpath | 通過xpath運算式定位 |
| find_element_by_link_text | find_elements_by_link_text | 通過完整超鏈接定位 |
| find_element_by_partial_link_text | find_elements_by_partial_link_text | 通過部分鏈接定位 |
| find_element_by_tag_name | find_elements_by_tag_name | 通過標簽定位 |
| find_element_by_class_name | find_elements_by_class_name | 通過類名進行定位 |
| find_element_by_css_selector | find_elements_by_css_selector | 通過css選擇器進行定位 |
3、selenium庫下webdriver模塊常用的方法與使用
控制瀏覽器的一些方法
| 方法 | 說明 |
|---|---|
| set_window_size() | 設定瀏覽器的大小 |
| back() | 控制瀏覽器后退 |
| forward() | 控制瀏覽器前進 |
| refresh() | 重繪當前頁面 |
| clear() | 清除文本 |
| send_keys (value) | 模擬按鍵輸入 |
| click() | 單擊元素 |
| submit() | 用于提交表單 |
| get_attribute(name) | 獲取元素屬性值 |
| text | 獲取元素的文本 |
4、代碼實體

?
關于selenium的簡單介紹就先到這里了,更多詳細內容大家可以去selenium官方檔案查看, 點擊查看selenium官方檔案
爬取淘寶資料

?
從上圖,可以看到需要獲取的資訊是:價格、商品名稱、付款人數、店鋪名稱,
現在我們開始進入主題,
首先,需要輸入你要搜索商品的內容,然后根據內容去搜索淘寶資訊,最后提取資訊并保存,
1、搜素商品
我在這里定義提個搜索商品的函式和一個主函式,
搜索商品
在這里需要創建一個瀏覽器物件,并且根據該物件的 get方法 來發送請求,

?
從上圖可以發現搜索框的 id值為q
,那么這樣就簡單很多了,有HTML基礎的朋友肯定知道id值是唯一的,
通過id值可以獲取到文本框的位置,并傳入引數,然后點擊搜索按鈕,

?
從上圖可以發現搜索按鈕在一個類里面,那么可以通過這個類來定位到搜索按鈕,并執行點擊操作,
當點擊搜索按鈕之后,網頁便會跳轉到登錄界面,要求我們登錄,如下圖所示:

?
? 登錄成功后會發現,里面的資料總共有100頁面,

?
上圖是前三頁的url地址,你會發現其實并沒有太大的變化,經過測驗發現,真正有效的引數是框起來的內容,它的變化會導致頁面的跳轉,很明顯第一頁的s=0,第二頁s=44,第三頁s=88,以此類推,之后就可以輕松做到翻頁了,
搜搜商品的代碼如下:

?
2、獲取商品資訊并保存
獲取商品資訊相對比較簡單,可以通過xpath方式來獲取資料,在這里我就不在論述,在這邊我創建了一個函式get_product來獲取并保存資訊,在保存資訊的程序中使用到了csv模塊,目的是將資訊保存到csv里面,

?
3、構造URL實作翻頁爬取
從上面的圖片中可以發現連續三頁URL的地址,其實真正變化并不是很多,經過測驗發現,只有q和s兩個引數是有用的,
構造出的url: s.taobao.com/search?q={}…
因為q是你要搜索的商品,s是設定翻頁的引數,這段代碼就放在了主函式里面

?
最后結果,如下圖所示:

?
此文轉載文,著作權歸作者所有,如有侵權聯系小編洗掉!
原文地址:https://www.tuicool.com/articles/6JVB3qQ
需要源代碼或者想了解更多的(點擊這里下載)
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/140194.html
標籤:Python
