主頁 > 後端開發 > 【Python爬蟲】4萬字,詳解selenium從入門到實戰【錯過再無】

【Python爬蟲】4萬字,詳解selenium從入門到實戰【錯過再無】

2021-10-10 17:37:43 後端開發

👉跳轉文末👈 獲取實戰原始碼與作者聯系方式,共同學習進步

文章目錄

    • 簡介
    • selenium安裝
    • 安裝瀏覽器驅動
      • 確定瀏覽器版本
      • 下載驅動
    • 定位頁面元素
      • 打開指定頁面
      • id 定位
      • name 定位
      • class 定位
      • tag 定位
      • xpath 定位
      • css 定位
      • link 定位
      • partial_link 定位
    • 瀏覽器控制
      • 修改瀏覽器視窗大小
      • 瀏覽器前進&后退
      • 瀏覽器重繪
      • 瀏覽器視窗切換
      • 常見操作
    • 滑鼠控制
      • 單擊左鍵
      • 單擊右鍵
      • 雙擊
      • 拖動
      • 滑鼠懸停
    • 鍵盤控制
    • 設定元素等待
      • 顯式等待
      • 隱式等待
      • 強制等待
    • 定位一組元素
    • 切換操作
      • 視窗切換
      • 表單切換
    • 彈窗處理
    • 上傳 & 下載檔案
      • 上傳檔案
      • 下載檔案
        • Chrome瀏覽器
        • Firefox瀏覽器
    • cookies操作
    • 呼叫JavaScript
      • 滑動滾動條
        • 通過 x ,y 坐標滑動
      • 通過參照標簽滑動
    • 其他操作
      • 關閉所有頁面
      • 關閉當前頁面
      • 對當前頁面進行截圖
    • selenium進階
      • selenium隱藏指紋特征
    • 實戰:selenium模擬登錄B站
      • 登錄驗證碼處理
      • 分析登錄界面結構
      • 獲取頁面當前驗證碼圖片
        • 方法一、頁面截圖,將驗證碼區域進行裁剪保存
        • 方法二、通過網頁獲取圖片地址,并保存
      • 使用超級鷹識別驗證碼
      • 提取坐標資料,動作鏈點擊
      • 運行效果
    • ??原始碼獲取??



簡介

Selenium 是最廣泛使用的開源 Web UI(用戶界面)自動化測驗套件之一,Selenium 支持的語言包括C#,Java,Perl,PHP,Python 和 Ruby,目前,Selenium Web 驅動程式最受 Python 和 C#歡迎, Selenium 測驗腳本可以使用任何支持的編程語言進行編碼,并且可以直接在大多數現代 Web 瀏覽器中運行,在爬蟲領域 selenium 同樣是一把利器,能夠解決大部分的網頁的反爬問題,但也不是萬能的,它最明顯的缺點就是速度慢,下面就進入正式的 study 階段,



selenium安裝

打開 cmd,輸入下面命令進行安裝,

pip install -i https://pypi.douban.com/simple selenium

執行后,使用 pip show selenium 查看是否安裝成功,



安裝瀏覽器驅動

針對不同的瀏覽器,需要安裝不同的驅動,下面列舉了常見的瀏覽器與對應的驅動程式下載鏈接,部分網址需要 “科學上網” 才能打開哦(dddd),

  • Firefox 瀏覽器驅動:Firefox
  • Chrome 瀏覽器驅動:Chrome
  • IE 瀏覽器驅動:IE
  • Edge 瀏覽器驅動:Edge
  • PhantomJS 瀏覽器驅動:PhantomJS
  • Opera 瀏覽器驅動:Opera

這里以安裝 Chrome 驅動作為演示,但 Chrome 在用 selenium 進行自動化測驗時還是有部分 bug ,常規使用沒什么問題,但如果出現一些很少見的報錯,可以使用 Firefox 進行嘗試,畢竟是 selenium 官方推薦使用的,

確定瀏覽器版本

在新標簽頁輸入 chrome://settings/ 進入設定界面,然后選擇 【關于 Chrome

查看自己的版本資訊,這里我的版本是94,這樣在下載對應版本的 Chrome 驅動即可,
在這里插入圖片描述

下載驅動

打開 Chrome驅動 ,單擊對應的版本,
在這里插入圖片描述
根據自己的作業系統,選擇下載,

在這里插入圖片描述
下載完成后,壓縮包內只有一個 exe 檔案,
在這里插入圖片描述
chromedriver.exe 保存到任意位置,并把當前路徑保存到環境變數中(我的電腦>>右鍵屬性>>高級系統設定>>高級>>環境變數>>系統變數>>Path),添加的時候要注意不要把 path 變數給覆寫了,如果覆寫了千萬別關機,然后百度,添加成功后使用下面代碼進行測驗,

from selenium import webdriver

# Chrome瀏覽器
driver = webdriver.Chrome()


定位頁面元素

打開指定頁面

使用 selenium 定位頁面元素的前提是你已經了解基本的頁面布局及各種標簽含義,當然如果之前沒有接觸過,現在我也可以帶你簡單的了解一下,
以我們熟知的 CSDN 為例,我們進入首頁,按 【F12】 進入開發者工具,紅框中顯示的就是頁面的代碼,我們要做的就是從代碼中定位獲取我們需要的元素,
在這里插入圖片描述
想要定位并獲取頁面中的資訊,首先要使用 webdriver 打開指定頁面,再去定位,

from selenium import webdriver

# Chrome瀏覽器
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/')

執行上面陳述句后會發現,瀏覽器打開 CSDN 主頁后會馬上關閉,想要防止瀏覽器自動關閉,可以添加下面代碼,

# 不自動關閉瀏覽器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 將option作為引數添加到Chrome中
driver = webdriver.Chrome(chrome_options=option)

這樣將上面的代碼組合再打開瀏覽器就不會自動關閉了,

from selenium import webdriver

# 不自動關閉瀏覽器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 注意此處添加了chrome_options引數
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.csdn.net/')

下面我們再來看看幾種常見的頁面元素定位方式,

id 定位

標簽的 id 具有唯一性,就像人的身份證,假設有個 input 標簽如下,

<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++難在哪里?">

我們可以通過 id 定位到它,由于 id 的唯一性,我們可以不用管其他的標簽的內容,

driver.find_element_by_id("toolbar-search-input")

name 定位

name 指定標簽的名稱,在頁面中可以不唯一,假設有個 meta 標簽如下

<meta name="keywords" content="CSDN博客,CSDN學院,CSDN論壇,CSDN直播">

我們可以使用 find_element_by_name 定位到 meta 標簽,

driver.find_element_by_name("keywords")

class 定位

class 指定標簽的類名,在頁面中可以不唯一,假設有個 div 標簽如下

<div class="toolbar-search-container">

我們可以使用 find_element_by_class_name 定位到 div 標簽,

driver.find_element_by_class_name("toolbar-search-container")

tag 定位

每個 tag 往往用來定義一類功能,所以通過 tag 來識別某個元素的成功率很低,每個頁面一般都用很多相同的 tag ,比如:\<div\>\<input\> 等,這里還是用上面的 div 作為例子,

<div class="toolbar-search-container">

我們可以使用 find_element_by_class_name 定位到 div 標簽,

driver.find_element_by_tag_name("div")

xpath 定位

xpath 是一種在 XML 檔案中定位元素的語言,它擁有多種定位方式,下面通過實體我們看一下它的幾種使用方式,

<html>
  <head>...<head/>
  <body>
    <div id="csdn-toolbar">
      <div class="toolbar-inside">
        <div class="toolbar-container">
          <div class="toolbar-container-left">...</div>
          <div class="toolbar-container-middle">
            <div class="toolbar-search onlySearch">
			<div class="toolbar-search-container">
				<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++難在哪里?">

根據上面的標簽需要定位 最后一行 input 標簽,以下列出了四種方式,xpath 定位的方式多樣并不唯一,使用時根據情況進行決議即可,

# 絕對路徑(層級關系)定位
driver.find_element_by_xpath(
	"/html/body/div/div/div/div[2]/div/div/input[1]")
# 利用元素屬性定位
driver.find_element_by_xpath(
	"//*[@id='toolbar-search-input']"))
# 層級+元素屬性定位
driver.find_element_by_xpath(
	"//div[@id='csdn-toolbar']/div/div/div[2]/div/div/input[1]")
# 邏輯運算子定位
driver.find_element_by_xpath(
	"//*[@id='toolbar-search-input' and @autocomplete='off']")

css 定位

CSS 使用選擇器來為頁面元素系結屬性,它可以較為靈活的選擇控制元件的任意屬性,一般定位速度比 xpath 要快,但使用起來略有難度,
CSS 選擇器常見語法:

方法例子描述
.class.toolbar-search-container選擇 class = 'toolbar-search-container' 的所有元素
#id#toolbar-search-input選擇 id = 'toolbar-search-input' 的元素
**選擇所有元素
elementinput選擇所有 <input\> 元素
element>elementdiv>input選擇父元素為 <div\> 的所有 <input\> 元素
element+elementdiv+input選擇同一級中在 <div\> 之后的所有 <input\> 元素
[attribute=value]type='text'選擇 type = 'text' 的所有元素

舉個簡單的例子,同樣定位上面實體中的 input 標簽,

driver.find_element_by_css_selector('#toolbar-search-input')
driver.find_element_by_css_selector('html>body>div>div>div>div>div>div>input')

link 定位

link 專門用來定位文本鏈接,假如要定位下面這一標簽,

<div class="practice-box" data-v-04f46969="">加入!每日一練</div>

我們使用 find_element_by_link_text 并指明標簽內全部文本即可定位,

driver.find_element_by_link_text("加入!每日一練")

partial_link 定位

partial_link 翻譯過來就是“部分鏈接”,對于有些文本很長,這時候就可以只指定部分文本即可定位,同樣使用剛才的例子,

<div class="practice-box" data-v-04f46969="">加入!每日一練</div>

我們使用 find_element_by_partial_link_text 并指明標簽內部分文本進行定位,

driver.find_element_by_partial_link_text("加入")


瀏覽器控制

修改瀏覽器視窗大小

webdriver 提供 set_window_size() 方法來修改瀏覽器視窗的大小,

from selenium import webdriver

# Chrome瀏覽器
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/')
# 設定瀏覽器瀏覽器的寬高為:600x800
driver.set_window_size(600, 800)

也可以使用 maximize_window() 方法可以實作瀏覽器全屏顯示,

from selenium import webdriver

# Chrome瀏覽器
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/')
# 設定瀏覽器瀏覽器的寬高為:600x800
driver.maximize_window()

瀏覽器前進&后退

webdriver 提供 backforward 方法來實作頁面的后退與前進,下面我們 ①進入CSDN首頁,②打開CSDN個人主頁,③back 回傳到CSDN首頁,④ forward 前進到個人主頁,

from selenium import webdriver
from time import sleep

driver = webdriver.Chrome()

# 訪問CSDN首頁
driver.get('https://www.csdn.net/')
sleep(2)
#訪問CSDN個人主頁
driver.get('https://blog.csdn.net/qq_43965708')
sleep(2)
#回傳(后退)到CSDN首頁
driver.back()
sleep(2)
#前進到個人主頁
driver.forward()

請添加圖片描述

細心的讀者會發現第二次 get() 打開新頁面時,會在原來的頁面打開,而不是在新標簽中打開,如果想的話也可以在新的標簽頁中打開新的鏈接,但需要更改一下代碼,執行 js 陳述句來打開新的標簽,

# 在原頁面打開
driver.get('https://blog.csdn.net/qq_43965708')

# 新標簽中打開
js = "window.open('https://blog.csdn.net/qq_43965708')"
driver.execute_script(js)

瀏覽器重繪

在一些特殊情況下我們可能需要重繪頁面來獲取最新的頁面資料,這時我們可以使用 refresh() 來重繪當前頁面,

# 重繪頁面
driver.refresh()

瀏覽器視窗切換

在很多時候我們都需要用到視窗切換,比如:當我們點擊注冊按鈕時,它一般會打開一個新的標簽頁,但實際上代碼并沒有切換到最新頁面中,這時你如果要定位注冊頁面的標簽就會發現定位不到,這時就需要將實際視窗切換到最新打開的那個視窗,我們先獲取當前各個視窗的句柄,這些資訊的保存順序是按照時間來的,最新打開的視窗放在陣列的末尾,這時我們就可以定位到最新打開的那個視窗了,

# 獲取打開的多個視窗句柄
windows = driver.window_handles
# 切換到當前最新打開的視窗
driver.switch_to.window(windows[-1])

常見操作

webdriver中的常見操作有:

方法描述
send_keys()模擬輸入指定內容
clear()清除文本內容
is_displayed()判斷該元素是否可見
get_attribute()獲取標簽屬性值
size回傳元素的尺寸
text回傳元素文本

接下來還是用 CSDN 首頁為例,需要用到的就是搜素框和搜索按鈕,通過下面的例子就可以氣息的了解各個操作的用法了,
在這里插入圖片描述

from selenium import webdriver

driver = webdriver.Chrome()

driver.get('https://www.csdn.net/')
sleep(2)
# 定位搜索輸入框
text_label = driver.find_element_by_xpath('//*[@id="toolbar-search-input"]')

# 在搜索框中輸入 Dream丶Killer
text_label.send_keys('Dream丶Killer')

sleep(2)
# 清除搜索框中的內容
text_label.clear()

# 輸出搜索框元素是否可見
print(text_label.is_displayed())
# 輸出placeholder的值
print(text_label.get_attribute('placeholder'))

# 定位搜索按鈕
button = driver.find_element_by_xpath('//*[@id="toolbar-search-button"]/span')
# 輸出按鈕的大小
print(button.size)
# 輸出按鈕上的文本
print(button.text)

'''輸出內容
True
python面試100問
{'height': 32, 'width': 28}
搜索
'''

請添加圖片描述



滑鼠控制

在webdriver 中,滑鼠操作都封裝在ActionChains類中,常見方法如下:

方法描述
click()單擊左鍵
context_click()單擊右鍵
double_click()雙擊
drag_and_drop()拖動
move_to_element()滑鼠懸停
perform()執行所有ActionChains中存盤的動作

單擊左鍵

模擬完成單擊滑鼠左鍵的操作,一般點擊進入子頁面等會用到,左鍵不需要用到 ActionChains

# 定位搜索按鈕
button = driver.find_element_by_xpath('//*[@id="toolbar-search-button"]/span')
# 執行單擊操作
button.click()

單擊右鍵

滑鼠右擊的操作與左擊有很大不同,需要使用 ActionChains

from selenium.webdriver.common.action_chains import ActionChains

# 定位搜索按鈕
button = driver.find_element_by_xpath('//*[@id="toolbar-search-button"]/span')
# 右鍵搜索按鈕
ActionChains(driver).context_click(button).perform()

雙擊

模擬滑鼠雙擊操作,

# 定位搜索按鈕
button = driver.find_element_by_xpath('//*[@id="toolbar-search-button"]/span')
# 執行雙擊動作
ActionChains(driver).double_click(button).perform()

拖動

模擬滑鼠拖動操作,該操作有兩個必要引數,

  • source:滑鼠拖動的元素
  • target:滑鼠拖至并釋放的目標元素
# 定位要拖動的元素
source = driver.find_element_by_xpath('xxx')
# 定位目標元素
target = driver.find_element_by_xpath('xxx')
# 執行拖動動作
ActionChains(driver).drag_and_drop(source, target).perform()

滑鼠懸停

模擬懸停的作用一般是為了顯示隱藏的下拉框,比如 CSDN 主頁的收藏欄,我們看一下效果,
在這里插入圖片描述

# 定位收藏欄
collect  = driver.find_element_by_xpath('//*[@id="csdn-toolbar"]/div/div/div[3]/div/div[3]/a')

# 懸停至收藏標簽處
ActionChains(driver).move_to_element(collect).perform()


鍵盤控制

webdriverKeys 類幾乎提供了鍵盤上的所有按鍵方法,我們可以使用 send_keys + Keys 實作輸出鍵盤上的組合按鍵如 “Ctrl + C”、“Ctrl + V” 等,

from selenium.webdriver.common.keys import Keys

# 定位輸入框并輸入文本
driver.find_element_by_id('xxx').send_keys('Dream丶killer')

# 模擬回車鍵進行跳轉(輸入內容后) 
driver.find_element_by_id('xxx').send_keys(Keys.ENTER)

# 使用 Backspace 來洗掉一個字符
driver.find_element_by_id('xxx').send_keys(Keys.BACK_SPACE)

# Ctrl + A 全選輸入框中內容
driver.find_element_by_id('xxx').send_keys(Keys.CONTROL, 'a')

# Ctrl + C 復制輸入框中內容
driver.find_element_by_id('xxx').send_keys(Keys.CONTROL, 'c')

# Ctrl + V 粘貼輸入框中內容
driver.find_element_by_id('xxx').send_keys(Keys.CONTROL, 'v')

其他常見鍵盤操作:

操作描述
Keys.F1F1鍵
Keys.SPACE空格
Keys.TABTab鍵
Keys.ESCAPEESC鍵
Keys.ALTAlt鍵
Keys.SHIFTShift鍵
Keys.ARROW_DOWN向下箭頭
Keys.ARROW_LEFT向左箭頭
Keys.ARROW_RIGHT向右箭頭
Keys.ARROW_UP向上箭頭


設定元素等待

很多頁面都使用 ajax 技術,頁面的元素不是同時被加載出來的,為了防止定位這些尚在加載的元素報錯,可以設定元素等來增加腳本的穩定性,webdriver 中的等待分為 顯式等待 和 隱式等待,

顯式等待

顯式等待:設定一個超時時間,每個一段時間就去檢測一次該元素是否存在,如果存在則執行后續內容,如果超過最大時間(超時時間)則拋出超時例外(TimeoutException),顯示等待需要使用 WebDriverWait,同時配合 untilnot until ,下面詳細講解一下,

WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None)

  • driver:瀏覽器驅動
  • timeout:超時時間,單位秒
  • poll_frequency:每次檢測的間隔時間,默認為0.5秒
  • ignored_exceptions:指定忽略的例外,如果在呼叫 untiluntil_not 的程序中拋出指定忽略的例外,則不中斷代碼,默認忽略的只有 NoSuchElementException

until(method, message=’ ‘)
until_not(method, message=’ ')

  • method:指定預期條件的判斷方法,在等待期間,每隔一段時間呼叫該方法,判斷元素是否存在,直到元素出現,until_not 正好相反,當元素消失或指定條件不成立,則繼續執行后續代碼
  • message: 如果超時,拋出 TimeoutException ,并顯示 message 中的內容

method 中的預期條件判斷方法是由 expected_conditions 提供,下面列舉常用方法,

先定義一個定位器

from selenium.webdriver.common.by import By
from selenium import webdriver

driver = webdriver.Chrome()
locator = (By.ID, 'kw')
element = driver.find_element_by_id('kw')
方法描述
title_is(‘百度一下’)判斷當前頁面的 title 是否等于預期
title_contains(‘百度’)判斷當前頁面的 title 是否包含預期字串
presence_of_element_located(locator)判斷元素是否被加到了 dom 樹里,并不代表該元素一定可見
visibility_of_element_located(locator)判斷元素是否可見,可見代表元素非隱藏,并且元素的寬和高都不等于0
visibility_of(element)跟上一個方法作用相同,但傳入引數為 element
text_to_be_present_in_element(locator , ‘百度’)判斷元素中的 text 是否包含了預期的字串
text_to_be_present_in_element_value(locator , ‘某值’)判斷元素中的 value 屬性是否包含了預期的字串
frame_to_be_available_and_switch_to_it(locator)判斷該 frame 是否可以 switch 進去,True 則 switch 進去,反之 False
invisibility_of_element_located(locator)判斷元素中是否不存在于 dom 樹或不可見
element_to_be_clickable(locator)判斷元素中是否可見并且是可點擊的
staleness_of(element)等待元素從 dom 樹中移除
element_to_be_selected(element)判斷元素是否被選中,一般用在下拉串列
element_selection_state_to_be(element, True)判斷元素的選中狀態是否符合預期,引數 element,第二個引數為 True/False
element_located_selection_state_to_be(locator, True)跟上一個方法作用相同,但傳入引數為 locator
alert_is_present()判斷頁面上是否存在 alert

下面寫一個簡單的例子,這里定位一個頁面不存在的元素,拋出的例外資訊正是我們指定的內容,

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
element = WebDriverWait(driver, 5, 0.5).until(
            EC.presence_of_element_located((By.ID, 'kw')),
                                           message='超時啦!')

在這里插入圖片描述

隱式等待

隱式等待也是指定一個超時時間,如果超出這個時間指定元素還沒有被加載出來,就會拋出 NoSuchElementException 例外,
除了拋出的例外不同外,還有一點,隱式等待是全域性的,即運行程序中,如果元素可以定位到,它不會影響代碼運行,但如果定位不到,則它會以輪詢的方式不斷地訪問元素直到元素被找到,若超過指定時間,則拋出例外

使用 implicitly_wait() 來實作隱式等待,使用難度相對于顯式等待要簡單很多,
示例:打開個人主頁,設定一個隱式等待時間 5s,通過 id 定位一個不存在的元素,最后列印 拋出的例外 與 運行時間,

from selenium import webdriver
from time import time

driver = webdriver.Chrome()
driver.get('https://blog.csdn.net/qq_43965708')

start = time()
driver.implicitly_wait(5)
try:
    driver.find_element_by_id('kw')
except Exception as e:
    print(e)
    print(f'耗時:{time()-start}')

在這里插入圖片描述
代碼運行到 driver.find_element_by_id('kw') 這句之后觸發隱式等待,在輪詢檢查 5s 后仍然沒有定位到元素,拋出例外,

強制等待

使用 time.sleep() 強制等待,設定固定的休眠時間,對于代碼的運行效率會有影響,以上面的例子作為參照,將 隱式等待 改為 強制等待,

from selenium import webdriver
from time import time, sleep

driver = webdriver.Chrome()
driver.get('https://blog.csdn.net/qq_43965708')

start = time()
sleep(5)
try:
    driver.find_element_by_id('kw')
except Exception as e:
    print(e)
    print(f'耗時:{time()-start}')

在這里插入圖片描述
值得一提的是,對于定位不到元素的時候,從耗時方面隱式等待和強制等待沒什么區別,但如果元素經過 2s 后被加載出來,這時隱式等待就會繼續執行下面的代碼,但 sleep還要繼續等待 3s,



定位一組元素

上篇講述了定位一個元素的 8 種方法,定位一組元素使用的方法只需要將 element 改為 elements 即可,它的使用場景一般是為了批量操作元素,

  • find_elements_by_id()
  • find_elements_by_name()
  • find_elements_by_class_name()
  • find_elements_by_tag_name()
  • find_elements_by_xpath()
  • find_elements_by_css_selector()
  • find_elements_by_link_text()
  • find_elements_by_partial_link_text()

這里以 CSDN 首頁的一個 博客專家欄 為例,
在這里插入圖片描述
下面使用 find_elements_by_xpath 來定位三位專家的名稱,
在這里插入圖片描述
這是專家名稱部分的頁面代碼,不知各位有沒有想到如何通過 xpath 定位這一組專家的名稱呢?

from selenium import webdriver

# 設定無頭瀏覽器
option = webdriver.ChromeOptions()
option.add_argument('--headless')

driver = webdriver.Chrome(options=option)
driver.get('https://blog.csdn.net/')

p_list = driver.find_elements_by_xpath("//p[@class='name']")
name = [p.text for p in p_list]
name



切換操作

視窗切換

selenium 操作頁面的時候,可能會因為點擊某個鏈接而跳轉到一個新的頁面(打開了一個新標簽頁),這時候 selenium 實際還是處于上一個頁面的,需要我們進行切換才能夠定位最新頁面上的元素,

視窗切換需要使用 switch_to.windows() 方法,

首先我們先看看下面的代碼,

代碼流程:先進入 【CSDN首頁】,保存當前頁面的句柄,然后再點擊左側 【CSDN官方博客】跳轉進入新的標簽頁,再次保存頁面的句柄,我們驗證一下 selenium 會不會自動定位到新打開的視窗,

from selenium import webdriver

handles = []
driver = webdriver.Chrome()
driver.get('https://blog.csdn.net/')
# 設定隱式等待
driver.implicitly_wait(3)
# 獲取當前視窗的句柄
handles.append(driver.current_window_handle)
# 點擊 python,進入分類頁面
driver.find_element_by_xpath('//*[@id="mainContent"]/aside/div[1]/div').click()
# 獲取當前視窗的句柄
handles.append(driver.current_window_handle)

print(handles)
# 獲取當前所有視窗的句柄
print(driver.window_handles)

在這里插入圖片描述
可以看到第一個串列 handle 是相同的,說明 selenium 實際操作的還是 CSDN首頁 ,并未切換到新頁面,
下面使用 switch_to.windows() 進行切換,

from selenium import webdriver

handles = []
driver = webdriver.Chrome()
driver.get('https://blog.csdn.net/')
# 設定隱式等待
driver.implicitly_wait(3)
# 獲取當前視窗的句柄
handles.append(driver.current_window_handle)
# 點擊 python,進入分類頁面
driver.find_element_by_xpath('//*[@id="mainContent"]/aside/div[1]/div').click()
# 切換視窗
driver.switch_to.window(driver.window_handles[-1])
# 獲取當前視窗的句柄
handles.append(driver.current_window_handle)

print(handles)
print(driver.window_handles)

在這里插入圖片描述
上面代碼在點擊跳轉后,使用 switch_to 切換視窗,window_handles 回傳的 handle 串列是按照頁面出現時間進行排序的,最新打開的頁面肯定是最后一個,這樣用 driver.window_handles[-1] + switch_to 即可跳轉到最新打開的頁面了,

那如果打開的視窗有多個,如何跳轉到之前打開的視窗,如果確實有這個需求,那么打開視窗是就需要記錄每一個視窗的 key(別名) 與 value(handle),保存到字典中,后續根據 key 來取 handle

表單切換

很多頁面也會用帶 frame/iframe 表單嵌套,對于這種內嵌的頁面 selenium 是無法直接定位的,需要使用 switch_to.frame() 方法將當前操作的物件切換成 frame/iframe 內嵌的頁面,

switch_to.frame() 默認可以用的 idname 屬性直接定位,但如果 iframe 沒有 idname ,這時就需要使用 xpath 進行定位,下面先寫一個包含 iframe 的頁面做測驗用,

<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
    <style>
        div p {
            color: #red;
            animation: change 2s infinite;
        }
        @keyframes change {
            from {
                color: red;
            }
            to {
                color: blue;
            }
        }
    </style>
</head>

<body>
    <div>
        <p>公眾號:Python新視野</p>
        <p>CSDN:Dream丶Killer</p>
        <p>微信:python-sun</p>
    </div>
    <iframe src="https://blog.csdn.net/qq_43965708" width="400" height="200"></iframe>
<!--     <iframe id="CSDN_info" name="Dream丶Killer" src="https://blog.csdn.net/qq_43965708" width="400" height="200"></iframe> -->
</body>
</html>

在這里插入圖片描述

現在我們定位紅框中的 CSDN 按鈕,可以跳轉到 CSDN 首頁,

from selenium import webdriver
from pathlib import Path


driver = webdriver.Chrome()
# 讀取本地html檔案
driver.get('file:///' + str(Path(Path.cwd(), 'iframe測驗.html')))

# 1.通過id定位
driver.switch_to.frame('CSDN_info')
# 2.通過name定位
# driver.switch_to.frame('Dream丶Killer')
# 通過xpath定位
# 3.iframe_label = driver.find_element_by_xpath('/html/body/iframe')
# driver.switch_to.frame(iframe_label)

driver.find_element_by_xpath('//*[@id="csdn-toolbar"]/div/div/div[1]/div/a/img').click()

這里列舉了三種定位方式,都可以定位 iframe
請添加圖片描述



彈窗處理

JavaScript 有三種彈窗 alert(確認)、confirm(確認、取消)、prompt(文本框、確認、取消),

處理方式:先定位(switch_to.alert自動獲取當前彈窗),再使用 textacceptdismisssend_keys 等方法進行操作

方法描述
text獲取彈窗中的文字
accept接受(確認)彈窗內容
dismiss解除(取消)彈窗
send_keys發送文本至警告框

這里寫一個簡單的測驗頁面,其中包含三個按鈕,分別對應三個彈窗,

<!DOCTYPE html>
<html lang="en">

<head>
</head>

<body>
    <button id="alert">alert</button>
    <button id="confirm">confirm</button>
    <button id="prompt">prompt</button>

    <script type="text/javascript">
        const dom1 = document.getElementById("alert")
        dom1.addEventListener('click', function(){
           alert("alert hello")
        })

                const dom2 = document.getElementById("confirm")
        dom2.addEventListener('click', function(){
            confirm("confirm hello")
        })

                const dom3 = document.getElementById("prompt")
        dom3.addEventListener('click', function(){
            prompt("prompt hello")
        })
    </script>
</body>
</html>

在這里插入圖片描述
下面使用上面的方法進行測驗,為了防止彈窗操作過快,每次操作彈窗,都使用 sleep 強制等待一段時間,

from selenium import webdriver
from pathlib import Path
from time import sleep


driver = webdriver.Firefox()
driver.get('file:///' + str(Path(Path.cwd(), '彈窗.html')))

sleep(2)

# 點擊alert按鈕
driver.find_element_by_xpath('//*[@id="alert"]').click()
sleep(1)
alert = driver.switch_to.alert
# 列印alert彈窗的文本
print(alert.text)
# 確認
alert.accept()

sleep(2)

# 點擊confirm按鈕
driver.find_element_by_xpath('//*[@id="confirm"]').click()
sleep(1)
confirm = driver.switch_to.alert
print(confirm.text)
# 取消
confirm.dismiss()

sleep(2)

# 點擊confirm按鈕
driver.find_element_by_xpath('//*[@id="prompt"]').click()
sleep(1)
prompt = driver.switch_to.alert
print(prompt.text)
# 向prompt的輸入框中傳入文本
prompt.send_keys("Dream丶Killer")
sleep(2)
prompt.accept()

'''輸出
alert hello
confirm hello
prompt hello
'''

請添加圖片描述

注:細心地讀者應該會發現這次操作的瀏覽器是 Firefox ,為什么不用 Chrome 呢?原因是測驗時發現執行 promptsend_keys 時,不能將文本填入輸入框,嘗試了各種方法并查看原始碼后確認不是代碼的問題,之后通過其他渠道得知原因可能是 Chrome 的版本與 selenium 版本的問題,但也沒有很方便的解決方案,因此沒有繼續深究,改用 Firefox 可成功運行,這里記錄一下我的 Chrome 版本,如果有大佬懂得如何在 Chrome 上解決這個問題,請在評論區指導一下,提前感謝!
selenium:3.141.0
Chrome:94.0.4606.71



上傳 & 下載檔案

上傳檔案

常見的 web 頁面的上傳,一般使用 input 標簽或是插件(JavaScriptAjax),對于 input 標簽的上傳,可以直接使用 send_keys(路徑) 來進行上傳,
先寫一個測驗用的頁面,

<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>

<body>
    <input type="file" name="">
</body>
</html>

在這里插入圖片描述
下面通過 xpath 定位 input 標簽,然后使用 send_keys(str(file_path) 上傳檔案,

from selenium import webdriver
from pathlib import Path
from time import sleep


driver = webdriver.Chrome()
file_path = Path(Path.cwd(), '上傳下載.html')
driver.get('file:///' + str(file_path))

driver.find_element_by_xpath('//*[@name="upload"]').send_keys(str(file_path))

在這里插入圖片描述

下載檔案

Chrome瀏覽器

Firefox 瀏覽器要想實作檔案下載,需要通過 add_experimental_option 添加 prefs 引數,

  • download.default_directory:設定下載路徑,
  • profile.default_content_settings.popups:0 禁止彈出視窗,

下面測驗下載搜狗圖片,指定保存路徑為代碼所在路徑,
在這里插入圖片描述

from selenium import webdriver 

prefs = {'profile.default_content_settings.popups': 0,
         'download.default_directory': str(Path.cwd())}
option = webdriver.ChromeOptions() 
option.add_experimental_option('prefs', prefs)
driver = webdriver.Chrome(options=option)
driver.get("https://pic.sogou.com/d?query=%E7%83%9F%E8%8A%B1&did=4&category_from=copyright")
driver.find_element_by_xpath('/html/body/div/div/div/div[2]/div[1]/div[2]/div[1]/div[2]/a').click()

driver.switch_to.window(driver.window_handles[-1])
driver.find_element_by_xpath('./html').send_keys('thisisunsafe')

代碼最后兩句猜測有理解什么意思的嗎~,哈哈,實際作用是當你彈出像下面的頁面 “您的連接不是私密連接” 時,可以直接鍵盤輸入 “thisisunsafe” 直接訪問鏈接,那么這個鍵盤輸入字串的操作就是之間講到的 send_keys,但由于該標簽頁是新打開的,所以要通過 switch_to.window() 將視窗切換到最新的標簽頁,

請添加圖片描述

Firefox瀏覽器

Firefox 瀏覽器要想實作檔案下載,需要通過 set_preference 設定 FirefoxProfile() 的一些屬性,

  • browser.download.foladerList:0 代表按瀏覽器默認下載路徑;2 保存到指定的目錄,
  • browser.download.dir:指定下載目錄,
  • browser.download.manager.showWhenStarting:是否顯示開始,boolean 型別,
  • browser.helperApps.neverAsk.saveToDisk:對指定檔案型別不再彈出框進行詢問,
  • HTTP Content-type對照表:https://www.runoob.com/http/http-content-type.html
from selenium import webdriver
import os
fp = webdriver.FirefoxProfile()
fp.set_preference("browser.download.dir",os.getcwd())
fp.set_preference("browser.download.folderList",2)
fp.set_preference("browser.download.manager.showhenStarting",True)
fp.set_preference("browser.helperApps.neverAsk.saveToDisk","application/octet-stream")

driver = webdriver.Firefox(firefox_profile = fp)
driver.get("https://pic.sogou.com/d?query=%E7%83%9F%E8%8A%B1&did=4&category_from=copyright")
driver.find_element_by_xpath('/html/body/div/div/div/div[2]/div[1]/div[2]/div[1]/div[2]/a').click()

運行效果與 Chrome 基本一致,這里就不再展示了,



cookies操作

cookies 是識別用戶登錄與否的關鍵,爬蟲中常常使用 selenium + requests 實作 cookie持久化,即先用 selenium 模擬登陸獲取 cookie ,再通過 requests 攜帶 cookie 進行請求,

webdriver 提供 cookies 的幾種操作:讀取、添加洗掉,

  • get_cookies:以字典的形式回傳當前會話中可見的 cookie 資訊,
  • get_cookie(name):回傳 cookie 字典中 key == namecookie 資訊,
  • add_cookie(cookie_dict):將 cookie 添加到當前會話中
  • delete_cookie(name):洗掉指定名稱的單個 cookie
  • delete_all_cookies():洗掉會話范圍內的所有 cookie

下面看一下簡單的示例,演示了它們的用法,

from selenium import webdriver 

driver = webdriver.Chrome()
driver.get("https://blog.csdn.net/")

# 輸出所有cookie資訊
print(driver.get_cookies())

cookie_dict = {
    'domain': '.csdn.net',
     'expiry': 1664765502,
     'httpOnly': False,
     'name': 'test',
     'path': '/',
     'secure': True,
     'value': 'null'}

# 添加cookie
driver.add_cookie(cookie_dict)
# 顯示 name = 'test' 的cookie資訊
print(driver.get_cookie('test'))
# 洗掉 name = 'test' 的cookie資訊
driver.delete_cookie('test')
# 洗掉當前會話中的所有cookie
driver.delete_all_cookies()

在這里插入圖片描述
在這里插入圖片描述



呼叫JavaScript

webdriver 對于滾動條的處理需要用到 JavaScript ,同時也可以向 textarea 文本框中輸入文本( webdriver 只能定位,不能輸入文本),webdriver 中使用execute_script方法實作 JavaScript 的執行,

滑動滾動條

通過 x ,y 坐標滑動

對于這種通過坐標滑動的方法,我們需要知道做表的起始位置在頁面左上角(0,0),下面看一下示例,滑動 CSDN 首頁,

from selenium import webdriver 
from time import sleep

driver = webdriver.Chrome()
driver.get("https://blog.csdn.net/")
sleep(1)

js = "window.scrollTo(0,500);"
driver.execute_script(js)

通過參照標簽滑動

這種方式需要先找一個參照標簽,然后將滾動潭訓動至該標簽的位置,下面還是用 CSDN 首頁做示例,我們用回圈來實作重復滑動,該 li 標簽實際是一種懶加載,當用戶滑動至最后標簽時,才會加載后面的資料,

from selenium import webdriver 
from time import sleep

driver = webdriver.Chrome()
driver.get("https://blog.csdn.net/")
sleep(1)
driver.implicitly_wait(3)

for i in range(31, 102, 10):
    sleep(1)
    target = driver.find_element_by_xpath(f'//*[@id="feedlist_id"]/li[{i}]')
    driver.execute_script("arguments[0].scrollIntoView();", target)

請添加圖片描述



其他操作

關閉所有頁面

使用 quit() 方法可以關閉所有視窗并退出驅動程式,

driver.quit()

關閉當前頁面

使用 close() 方法可以關閉當前頁面,使用時要注意 “當前頁面” 這四個字,當你關閉新打開的頁面時,需要切換視窗才能操作新視窗并將它關閉,,下面看一個簡單的例子,這里不切換視窗,看一下是否能夠關閉新打開的頁面,

from selenium import webdriver
from time import sleep

driver = webdriver.Chrome()
driver.get('https://blog.csdn.net/')
driver.implicitly_wait(3)

# 點擊進入新頁面
driver.find_element_by_xpath('//*[@id="mainContent"]/aside/div[1]/div').click()
# 切換視窗
# driver.switch_to.window(driver.window_handles[-1])

sleep(3)
driver.close()

請添加圖片描述
可以看到,在不切換視窗時,driver 物件還是操作最開始的頁面,

對當前頁面進行截圖

wendriver 中使用 get_screenshot_as_file() 對 “當前頁面” 進行截圖,這里和上面的 close() 方法一樣,對于新視窗的操作,一定要切換視窗,不然截的還是原頁面的圖,對頁面截圖這一功能,主要用在我們測驗時記錄報錯頁面的,我們可以將 try except 結合 get_screenshot_as_file() 一起使用來實作這一效果,

try:
    driver.find_element_by_xpath('//*[@id="mainContent"]/aside/div[1]/div').click()
except:
    driver.get_screenshot_as_file(r'C:\Users\pc\Desktop\screenshot.png')


selenium進階

selenium隱藏指紋特征

selenium 對于部分網站來說十分強大,但它也不是萬能的,實際上,selenium 啟動的瀏覽器,有幾十個特征可以被網站檢測到,輕松的識別出你是爬蟲,
不相信?接著往下看,首先你手動打開瀏覽器輸入https://bot.sannysoft.com/,在網路無例外的情況下,顯示應該如下:
在這里插入圖片描述
下面通過 selenium 來打開瀏覽器,

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://bot.sannysoft.com/')

在這里插入圖片描述
通過 webdriver:present 可以看到瀏覽器已經識別出了你是爬蟲,我們再試一下無頭瀏覽器,

from selenium import webdriver

# 設定無頭瀏覽器
option = webdriver.ChromeOptions()
option.add_argument('--headless')

driver = webdriver.Chrome()

driver.get('https://bot.sannysoft.com/')
# 對當前頁面進行截圖
driver.save_screenshot('page.png')

請添加圖片描述
沒錯,就是這么真實,對于常規網站可能沒什么反爬,但真正想要抓你還是一抓一個準的,

說了這么多,是不是 selenium 真的不行?別著急,實際還是解決方法的,關鍵點在于如何在瀏覽器檢測之前將這些特征進行隱藏,事實上,前人已經為我們鋪好了路,解決這個問題的關鍵,實際就是一個 stealth.min.js 檔案,這個檔案是給 puppeteer 用的,在 Python 中使用的話需要單獨執行這個檔案,該檔案獲取方式需要安裝 node.js ,如果已安裝的讀者可以直接運行如下命令即可在當前目錄生成該檔案,

npx extract-stealth-evasions

這里我已經成功獲取了 stealth.min.js 檔案,
鏈接:https://pan.baidu.com/s/1O6co1Exa8eks6QmKAst91g
提取碼:關注文末小卡片回復“隱藏指紋特征”獲取

下面我們在網站檢測之前先執行該js檔案隱藏特征,同樣使用無頭瀏覽器,看是否有效,

import time
from selenium.webdriver import Chrome

option = webdriver.ChromeOptions()
option.add_argument("--headless")
# 無頭瀏覽器需要添加user-agent來隱藏特征
option.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36')

driver = Chrome(options=option)
driver.implicitly_wait(5)

with open('stealth.min.js') as f:
    js = f.read()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": js
})

driver.get('https://bot.sannysoft.com/')
driver.save_screenshot('hidden_features.png')

請添加圖片描述
通過 stealth.min.js 的隱藏,可以看到這次使用無頭瀏覽器特征基本都以隱藏,已經十分接近人工打開瀏覽器了,



實戰:selenium模擬登錄B站

登錄驗證碼處理

selenium 中的難點驗證碼破解在上文中并沒有提及,因為確實沒有很好的方式,一般都需要通過第三方平臺實作破解,本案例中使用的是超級鷹平臺(收費,大概1元30次,測驗用沖個1元就足夠),下面實戰開始!

分析登錄界面結構

B站登錄界面如下,
在這里插入圖片描述

首先明確我們的目標,打開登陸界面,定位用戶名和密碼對應的標簽,輸入相關資料后,點擊登錄,此時頁面會彈出文字驗證碼,
在這里插入圖片描述

下文會用兩種方法進行驗證碼圖片的獲取,并提交給超級鷹進行識別,接收到漢字的坐標后,處理坐標資料,然后用動作鏈點擊對應坐標操作,完成登錄,

下面使用 selenium 打開登錄頁面,

driver.get('https://passport.bilibili.com/login')
# 定位用戶名,密碼輸入框
username = driver.find_element_by_id('login-username')
password = driver.find_element_by_id('login-passwd')
# 將自己的用戶名密碼替換xxxxxx
username.send_keys('xxxxxx')
password.send_keys('xxxxxx')

# 定位登錄按鈕并點擊
driver.find_element_by_xpath('//*[@id="geetest-wrap"]/div/div[5]/a[1]').click()

獲取頁面當前驗證碼圖片

方法一、頁面截圖,將驗證碼區域進行裁剪保存

使用此方法時,注意我們截取驗證碼圖片時需要截取完整,不要只截圖片部分,上面文字也需要,完整驗證碼截圖如下:

在這里插入圖片描述

首先將點擊登錄后的頁面進行截圖,然后定位到驗證碼的位置,通過location()方法獲取驗證碼左上角的坐標, size() 獲取驗證碼的寬和高,左上角坐標加上寬和高就是驗證碼右下角的坐標,獲取坐標后就可以用**crop()**方法來進行裁剪,然后將裁剪到的驗證碼圖片保存,

此時雖然獲取了驗證碼圖片,但是還不能直接提交給超級鷹,
因為超級鷹識別的驗證碼圖片的寬和高有限制,最好不超過 460px,310px
但是截取到的驗證碼圖片寬高為 338px,432px,這時就要先將圖片縮小一倍再提交即可,等到收到坐標資料再將坐標乘2

def save_img():
    # 對當前頁面進行截圖保存
    driver.save_screenshot('page.png')
    # 定位驗證碼圖片的位置
    code_img_ele = driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[6]/div/div')
    # 獲取驗證碼左上角的坐標x,y
    location = code_img_ele.location
    # 獲取驗證碼圖片對應的長和寬
    size = code_img_ele.size

    # 左上角和右下角的坐標
    rangle = (
        int(location['x'] * 1.25), int(location['y'] * 1.25), int((location['x'] + size['width']) * 1.25),
        int((location['y'] + size['height']) * 1.25)
    )

    i = Image.open('./page.png')
    code_img_name = './code.png'
    # crop根據rangle元組內的坐標進行裁剪
    frame = i.crop(rangle)
    frame.save(code_img_name)
    return code_img_ele

def narrow_img():
    # 縮小圖片
    code = Image.open('./code.png')
    small_img = code.resize((169, 216))
    small_img.save('./small_img.png')
    print(code.size, small_img.size)

方法二、通過網頁獲取圖片地址,并保存

這種方法比上一種更加方便,分析網頁原始碼獲取圖片地址,對該地址發送請求,接識訓傳的二進制檔案,進行保存,首先打開網頁原始碼找到圖片地址,

請添加圖片描述

圖片地址是 img 標簽的 src 屬性值,通過 xpath 得到地址,直接對此 url 發送請求,接收資料并保存即可,
注意:由于獲取的圖片的高度仍然大于超級鷹標準格式,所以也需要將圖片縮小,

# 獲取img標簽的src屬性值
img_url = driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[6]/div/div/div[2]/div[1]/div/div[2]/img').get_attribute('src')
headers = {
    'Users-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}
# 獲取圖片二進制資料
img_data = requests.get(url=img_url, headers=headers).content
with open('./node1.png', 'wb')as fp:
    fp.write(img_data)
i = Image.open('./node1.png')
# 將圖片縮小并保存,設定寬為172,高為192
small_img = i.resize((172, 192))
small_img.save('./small_img1.png')

使用超級鷹識別驗證碼

這部分沒什么說的,直接呼叫就行,

# 將驗證碼提交給超級鷹進行識別
chaojiying = Chaojiying_Client('用戶名', '密碼', '96001')  # 用戶中心>>軟體ID 生成一個替換 96001
im = open('small_img.png', 'rb').read()  # 本地圖片檔案路徑 來替換 a.jpg 有時WIN系統須要//
# 9004是驗證碼型別
print(chaojiying.PostPic(im, 9004)['pic_str'])
result = chaojiying.PostPic(im, 9004)['pic_str']

提取坐標資料,動作鏈點擊

超級鷹識別回傳的資料格式是:123,12 | 234,21 ,我們可以將資料以 ' | ' 進行分割,保存到串列中,再以逗號分割將 x,y 的坐標保存,得到 [ [123,12],[234,21] ] 這一格式,然后遍歷這一串列,使用動作鏈對每一個串列元素對應的 x,y 指定的位置進行點擊操作,最后定位并點擊確認,登錄成功,

all_list = []  # 要存盤即將被點擊的點的坐標  [[x1,y1],[x2,y2]]
if '|' in result:
    list_1 = result.split('|')
    count_1 = len(list_1)
    for i in range(count_1):
        xy_list = []
        x = int(list_1[i].split(',')[0])
        y = int(list_1[i].split(',')[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
    x = int(result.split(',')[0])
    y = int(result.split(',')[1])
    xy_list = []
    xy_list.append(x)
    xy_list.append(y)
    all_list.append(xy_list)

# 遍歷串列,使用動作鏈對每一個串列元素對應的x,y指定的位置進行點擊操作
# x,y坐標乘2和0.8,是由于
for l in all_list:
    x = l[0] * 2 * 0.8
    y = l[1] * 2 * 0.8
    # 將點擊操作的參照物移動到指定的模塊,
    # 若用方法二獲取的驗證碼圖片,要添加下面代碼對code_img_ele賦值
    # code_img_ele = bro.find_element_by_xpath('/html/body/div[2]/div[2]/div[6]/div/div/div[2]/div[1]/div/div[2]/img')
    ActionChains(driver).move_to_element_with_offset(code_img_ele, x, y).click().perform()
    print('點擊已完成')

# 完成動作鏈點擊操作后,定位確認按鈕并點擊
driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[6]/div/div/div[3]/a').click()

運行效果

由于驗證碼處理需要用到第三方平臺,外加設定了強制等待,整體運行速度較慢,
請添加圖片描述



??原始碼獲取??

對于剛入門 Python 或是想要入門 Python 的小伙伴,可以通過下方小卡片聯系作者,一起交流學習,都是從新手走過來的,有時候一個簡單的問題卡很久,但可能別人的一點撥就會恍然大悟,由衷的希望大家能夠共同進步,

👇🏻 實戰原始碼 可關注 小卡片 回復 模擬登錄B站 獲取👇🏻

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/307690.html

標籤:python

上一篇:eBPF-bpf_object__pin_maps是否會引出內部地圖(對于BPF_MAP_TYPE_HASH_OF_MAPS)?

下一篇:如何將linux腳本的所有輸出追加到一個新的檔案中?

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more