Selenium 使用手冊-有解無憂

一、安裝及環境配置

如果要使用selenium，需要下載chrome及對應系統、對應瀏覽器版本的chromedriver，
pip安裝：pip install selenium

二、基本使用

2.1 啟動及配置

# 普通啟動

from selenium import webdriver

# 1. 實體化一個瀏覽器
browser = webdriver.Chrome("./chromedriver")  # 引數為驅動路徑

browser.get("http://www.baidu.com/")  # 驅動瀏覽器訪問百度

browser.page_source  # 獲取當前瀏覽器的html

browser.quit()  # 退出實體化的瀏覽器

# 包含配置資訊啟動

from selenium import webdriver

# 配置
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # 增加無界面選項
options.add_argument('--disable-gpu')  # 如果不加這個選項，有時定位會出現問題
options.add_argument('--user-data-dir=/Users/mac/Library/Application Support/Google/Chrome/Default')  # 設定成用戶自己的資料目錄

# 實體化一個瀏覽器物件，并加載配置
browser = webdriver.Chrome(executable_path="./chromedriver", options=options)

browser.get("http://www.baidu.com/")  # 驅動瀏覽器訪問百度

browser.page_source  # 獲取當前瀏覽器的html

browser.quit()  # 退出實體化的瀏覽器

2.2 基本瀏覽器動作

# 定位

browser.find_element_by_id("id")  # 通過id定位
browser.find_element_by_name("name")  # 通過name定位
browser.find_element_by_class_name("class_name")  # 通過classname定位
browser.find_element_by_tag_name("input")  # 通過tag標簽定位
browser.find_element_by_xpath("//input[@id='kw']")  # 通過xpath定位
browser.find_element_by_css_selector("#kw")  # 通過CSS方式定位

# 等待

# 1.強制等待x秒
time.sleep(10)  # 強制程式休眠10s

# 2.每次都等到瀏覽器全部加載完成
browser.implicitly_wait(30)  # 隱式等待，引數為最長等待時間(s)，頁面全部加載完成才會執行下一步操作，
# 需要注意的是，browser.implicitly_wait(30)是為全域設定最長30s的等待時間，

# 3.等到自己需要的元素出現或者自己不需要的元素消失
from selenium.webdriver.support.wait import WebDriverWait

WebDriverWait(browser, 30).until(EC.title_is("百度一下，你就知道"))  # 等待，直到標題是百度一下，或超時
WebDriverWait(browser, 30).until(EC.title_contains("百度"))  # 等待，直到標題包含百度，或超時
WebDriverWait(browser, 30).until(EC.presence_of_element_located((By.ID, "id")))  # 等待，直到Dom中存在該id
WebDriverWait(browser, 30).until(EC.visibility_of_element_located((By.ID, "id")))  # 等待，直到Dom中存在該id并且可見
WebDriverWait(browser, 30).until(EC.element_to_be_clickable((By.XPATH,"//*[@id='u1']/a[8]")))  # 等待，直到該元素是可點擊的
WebDriverWait(browser, 30).until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR,'.main'),'enable'))  # 判斷.main中是否包含enable字串，回傳布林值
WebDriverWait(browser, 30).until(EC.staleness_of(driver.find_element(By.ID,'id')))  # 等待，直到id從dom中移除

# 行為

browser.maximize_window()  # 瀏覽器最大化
browser.minimize_window()  # 瀏覽器最小化
browser.set_window_size(480, 800)  # 自定義瀏覽器視窗大小
browser.forword()  # 瀏覽器前進
browser.back()  # 瀏覽器后退
browser.close()  # 關閉瀏覽器當前視窗
browser.quit()  # 退出瀏覽器驅動并關閉所有視窗
browser.refresh()  # 重繪當前頁
browser.page_source  # 獲取當前頁html
browser.title  # 獲取當前頁標題
browser.url  # 獲取當前頁url

browser.find_element_by_name("name").click()  # 點擊物件
browser.find_element_by_name("name").send_keys("keyword")  # 模擬鍵盤輸入
browser.find_element_by_name("name").clear()  # 清除物件的內容
browser.find_element_by_name("name").submit()  # 提交物件的內容
browser.find_element_by_name("name").text()  # 獲取元素的文本資訊
browser.find_element_by_name("name").context_click()  # 右鍵單擊
browser.find_element_by_name("name").double_click()  # 雙擊
browser.find_element_by_name("name").is_displayed()  # 是否用戶可見


# 模擬鍵盤事件
from selenium.webdriver.common.keys import Keys
browser.find_element_by_id("user_pwd").send_keys(Keys.ENTER)  # 通過定位密碼框，enter（回車）來代替登陸按鈕
browser.find_element_by_id("login").send_keys(Keys.ENTER)  # 點擊回車登陸（替代click），和上面效果一樣
browser.find_element_by_name("name").send_keys(Keys.CONTROL, "a")  # 模擬ctrl+a

# iframe

browser.switch_to_frame("f1")  # 找到 f1 iframe
browser.switch_to_window("f1")  # 找到內嵌視窗 f1
driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])

三、其他使用

# 操作cookie

browser.get_cookie("name")  # 根據name獲取單個cookie
browser.get_cookies()  # 獲取所有cookie
browser.delete_all_cookies()  # 洗掉所有cookies
browser.delete_cookie("name")  # 根據name洗掉對應cookie
browser.add_cookie({"k1": "v1", "k2": "v2"})  # 設定cookies

# 獲取截屏

browser.get_screenshot_as_file("/usr/download/down_image.png")  # 保存當前視窗截圖
browser.get_screenshot_as_png()  # 獲取當前png截圖的二進制字串

# 獲取視窗資訊

browser.get_window_rect()  # 獲取當前視窗xy坐標及當前視窗的高度和寬度
browser.get_window_position(windowHandle="current")  # 獲取當前視窗的x,y坐標
browser.get_window_size(windowHandle="current")  # 獲取當前視窗的高度和寬度

# 多視窗切換

driver.get("http://example.com")  # 打開一個視窗
now_handle = drvier.current_window_handle  # 獲取當前視窗句柄

driver.find_element_by_name('example').click()  # 點擊某個元素打開新的視窗(target="_black"的元素)
all_handle = drvier.window_handles  # 獲取所有視窗句柄
drvier.switch_to.window(now_handle)  # 切換為第一視窗
driver.close()  # 關閉當前視窗

# 通過input上傳附件
self.browser.find_element_by_xpath('//input[@]').send_keys("/Users/mac/Documents/myspider/selenium_spider/test.mp4")  # 必須要用絕對路徑

3.1 切換標簽頁

每個標簽頁都有對應的視窗句柄，可以通過視窗句柄切換到對應的標簽頁，

# 1. 獲取當前所有的標簽頁的句柄構成的串列
current_windows = driver.window_handles
 
# 2. 根據標簽頁句柄串列索引下標進行切換
driver.switch_to.window(current_windows[0])

3.2 切換iframe

selenium操作iframe內容需要先switch_to到iframe，操作完成后需要切換回來

login_frame = driver.find_element_by_id('login_frame') # 根據id定位 frame元素
driver.switch_to.frame(login_frame) # 轉向到該frame中

# 利用切換標簽頁的方式切出frame標簽
windows = driver.window_handles
driver.switch_to.window(windows[0])

3.3 cookie操作

# 獲取cookie
cookies_dict = {cookie["name"]: cookie["value"] for cookie in driver.get_cookies()}

# 洗掉一個cookie
driver.delete_cookie("CookieName")

# 洗掉所有cookie
driver.delete_all_cookies()

# 添加一個cookie
add_cookie(cookie_dict)

3.4 執行JS代碼

script = 'window.scrollTo(0,document.body.scrollHeight)'

browser.execute_async_script(script, *args)  # 在當前的window/frame中異步執行JS代碼
browser.execute_script(script, *args)  # 在當前的window/frame中同步執行JS代碼

script: JS代碼（str）
*args: 要傳入js的引數（iterable）

3.5 上傳檔案

通過input上傳檔案

self.browser.find_element_by_xpath('//input[@]').send_keys("/Users/mac/Documents/myspider/selenium_spider/test.mp4")  # 必須要用絕對路徑

3.6 截圖

browser.get_screenshot_as_file("/usr/download/down_image.png")  # 保存當前視窗截圖
browser.get_screenshot_as_png()  # 獲取當前png截圖的二進制字串

3.7 滑鼠事件


from selenium.webdriver.common.action_chains import ActionChains

 el = driver.find_element_by_name('tj_trnews')  # 目標元素

ActionChains(driver).context_click(el).perform()  # 右擊目標元素
ActionChains(driver).double_click(el).perform()  # 雙擊目標元素

source = driver.find_element_by_id('lg')   # 目標元素原始位置
target = driver.find_element_by_id('kw')  # 拖動的目標位置
ActionChains(driver).drag_and_drop(source, target).perform()  # 拖動元素

ActionChains(driver).move_to_element(el).perform()  # 滑鼠移動的目標元素上
ActionChains(driver).click_and_hold(el).perform()  # 移動到目標元素按下滑鼠左鍵

3.8 控制已打開的瀏覽器

.\chrome.exe --remote-debugging-port=6001 --user-data-dir="C:\ProgramFiles\Chrome"

def init_driver():
    options = webdriver.ChromeOptions()
    options.add_experimental_option("debuggerAddress", "127.0.0.1:6001")
    driver = webdriver.Chrome(options=options)
    return driver

四、代碼示例

4.1 初始化driver

#!/usr/bin/env python
# coding:utf-8
import time

from selenium import webdriver
from selenium.webdriver.support.select import Select


def chromedriver_demo():
    driver = webdriver.Chrome()

    driver.delete_all_cookies()

    driver.add_cookie({'name': 'ABC', 'value': 'DEF'})

    driver.get_cookies()

    driver.execute_script('window.open("https://www.baidu.com");')

    """
    // chrome地址欄命令
    about:version - 顯示當前版本
　　 about:memory - 顯示本機瀏覽器記憶體使用狀況
　　 about:plugins - 顯示已安裝插件
　　 about:histograms - 顯示歷史記錄
　　 about:dns - 顯示DNS狀態
　　 about:cache - 顯示快取頁面
　　 about:gpu -是否有硬體加速
　　 about:flags -開啟一些插件
　　 chrome://extensions/ - 查看已經安裝的擴展

    // chrome引數　
    –user-data-dir=”[PATH]” 指定用戶檔案夾User Data路徑，可以把書簽這樣的用戶資料保存在系統磁區以外的磁區，
　　 –disk-cache-dir=”[PATH]“ 指定快取Cache路徑
　　 –disk-cache-size= 指定Cache大小，單位Byte
　　 –first run 重置到初始狀態，第一次運行
　　 –incognito 隱身模式啟動
　　 –disable-javascript 禁用Javascript
　　 –omnibox-popup-count=”num” 將地址欄彈出的提示選單數量改為num個，我都改為15個了，
　　 –user-agent=”xxxxxxxx” 修改HTTP請求頭部的Agent字串，可以通過about:version頁面查看修改效果
　　 –disable-plugins 禁止加載所有插件，可以增加速度，可以通過about:plugins頁面查看效果
　　 –disable-javascript 禁用JavaScript，如果覺得速度慢在加上這個
　　 –disable-java 禁用java
　　 –start-maximized 啟動就最大化
　　 –no-sandbox 取消沙盒模式
　　 –single-process 單行程運行
　　 –process-per-tab 每個標簽使用單獨行程
　　 –process-per-site 每個站點使用單獨行程
　　 –in-process-plugins 插件不啟用單獨行程
　　 –disable-popup-blocking 禁用彈出攔截
　　 –disable-plugins 禁用插件
　　 –disable-images 禁用影像
　　 –incognito 啟動進入隱身模式
　　 –enable-udd-profiles 啟用賬戶切換選單
　　 –proxy-pac-url 使用pac代理 [via 1/2]
　　 –lang=zh-CN 設定語言為簡體中文
　　 –disk-cache-dir 自定義快取目錄
　　 –disk-cache-size 自定義快取最大值（單位byte）
　　 –media-cache-size 自定義多媒體快取最大值（單位byte）
　　 –bookmark-menu 在工具 欄增加一個書簽按鈕
　　 –enable-sync 啟用書簽同步
　　 –single-process 單行程運行Google Chrome
　　 –start-maximized 啟動Google Chrome就最大化
　　 –disable-java 禁止Java
　　 –no-sandbox 非沙盒模式運行
    """


def init_driver(driver_path: str, timeout=20, user_agent: str = None, headless=False,
                proxy: str = None, binary_location: str = None, user_data_dir: str = None,
                crx_dir=None):
    chrome_options = webdriver.ChromeOptions()

    chrome_options.add_argument("blink-settings=imagesEnabled=false")  # 設定圖片不加載
    chrome_options.add_argument("--disable-gpu")
    chrome_options.add_argument("disable-infobars")  # 隱藏"Chrome正在受到自動軟體的控制"
    chrome_options.add_argument("lang=zh_CN.UTF-8")  # 設定中文
    chrome_options.add_argument("window-size=1920x3000")  # 指定瀏覽器解析度
    chrome_options.add_argument("--hide-scrollbars")  # 隱藏滾動條, 應對一些特殊頁面
    chrome_options.add_argument("--remote-debugging-port=9222")
    # chrome_options.binary_location = r"/Applications/Chrome"  # 手動指定使用的瀏覽器位置

    if headless:
        chrome_options.add_argument("--headless")

    if not user_agent:
        user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.58"
        chrome_options.add_argument("user-agent=%s" % user_agent)

    if proxy:
        chrome_options.add_argument("proxy-server=%s" % proxy)

    if user_data_dir:
        chrome_options.add_argument("--user-data-dir=%s" % user_data_dir)

    if binary_location:
        chrome_options.binary_location = binary_location  # 手動指定使用的瀏覽器位置

    if crx_dir:
        chrome_options.add_extension(crx_dir)  # 自定義加載擴展crx

    driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=driver_path)
    driver.set_page_load_timeout(timeout)
    driver.set_script_timeout(timeout)
    return driver


def init_driver_with_exists_chrome():
    """
    Start Chrome:
    C:\Users\user\AppData\Local\Google\Chrome\Application\chrome.exe --remote-debugging-port=6001 --user-data-dir="C:\ProgramFiles\Chrome2"
    """
    options = webdriver.ChromeOptions()
    options.add_experimental_option("debuggerAddress", "127.0.0.1:6001")
    driver = webdriver.Chrome(options=options)
    return driver


def wait_html(driver):
    while 1:
        time.sleep(0.5)
        if "Certification" in driver.page_source:
            print("Success!!! Certification")
            break
        print("Certification")

    # pass. to do next


def auto_input(driver):
    # input keys
    driver.find_element_by_xpath('//input[@name="CMT_SSN_1"]').send_keys("")

    # click button 1
    driver.find_element_by_xpath('//input[@name="CCA_QUIT_IND"][@value="https://www.cnblogs.com/xyya/archive/2021/04/27/N"]').click()
    # click button 2 (with js)
    driver.execute_script("""
        var e = document.createEvent("MouseEvents");
        e.initEvent("click", true, true);
        document.getElementById("nextBtn").dispatchEvent(e);
        """)
    # click button 3
    element = driver.find_element_by_id('login')
    webdriver.ActionChains(driver).move_to_element(element).click(element).perform()

    # selection
    Select(driver.find_element_by_xpath('//select[@name="CMT_ID_TYPE_CD"]')).select_by_index(2)
    Select(driver.find_element_by_xpath('//select[@name="CWE_CONTACT_OUTCOME_CD_02"]')).select_by_value("3")


if __name__ == "__main__":
    url = "https://m.amap.com/service/poi/id.json?id=B0FFH5BLJA"
    driver_path = "spider_data/chromedriver.exe"
    init_driver(driver_path)

五、參考文章

Python+Selenium基礎入門及實踐
python中selenium使用
Selenium Webdriver常用方法

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/280872.html

標籤：其他

上一篇：Go語言核心技術,資深技術專家3個月帶你通關

下一篇：實作spaCy物體標注模型