一、安裝及環境配置
如果要使用selenium,需要下載chrome及對應系統、對應瀏覽器版本的chromedriver,
pip安裝:pip install selenium
二、基本使用
2.1 啟動及配置
# 普通啟動
from selenium import webdriver
# 1. 實體化一個瀏覽器
browser = webdriver.Chrome("./chromedriver") # 引數為驅動路徑
browser.get("http://www.baidu.com/") # 驅動瀏覽器訪問百度
browser.page_source # 獲取當前瀏覽器的html
browser.quit() # 退出實體化的瀏覽器
# 包含配置資訊啟動
from selenium import webdriver
# 配置
options = webdriver.ChromeOptions()
options.add_argument('--headless') # 增加無界面選項
options.add_argument('--disable-gpu') # 如果不加這個選項,有時定位會出現問題
options.add_argument('--user-data-dir=/Users/mac/Library/Application Support/Google/Chrome/Default') # 設定成用戶自己的資料目錄
# 實體化一個瀏覽器物件,并加載配置
browser = webdriver.Chrome(executable_path="./chromedriver", options=options)
browser.get("http://www.baidu.com/") # 驅動瀏覽器訪問百度
browser.page_source # 獲取當前瀏覽器的html
browser.quit() # 退出實體化的瀏覽器
2.2 基本瀏覽器動作
# 定位
browser.find_element_by_id("id") # 通過id定位
browser.find_element_by_name("name") # 通過name定位
browser.find_element_by_class_name("class_name") # 通過classname定位
browser.find_element_by_tag_name("input") # 通過tag標簽定位
browser.find_element_by_xpath("//input[@id='kw']") # 通過xpath定位
browser.find_element_by_css_selector("#kw") # 通過CSS方式定位
# 等待
# 1.強制等待x秒
time.sleep(10) # 強制程式休眠10s
# 2.每次都等到瀏覽器全部加載完成
browser.implicitly_wait(30) # 隱式等待,引數為最長等待時間(s),頁面全部加載完成才會執行下一步操作,
# 需要注意的是,browser.implicitly_wait(30)是為全域設定最長30s的等待時間,
# 3.等到自己需要的元素出現或者自己不需要的元素消失
from selenium.webdriver.support.wait import WebDriverWait
WebDriverWait(browser, 30).until(EC.title_is("百度一下,你就知道")) # 等待,直到標題是百度一下,或超時
WebDriverWait(browser, 30).until(EC.title_contains("百度")) # 等待,直到標題包含百度,或超時
WebDriverWait(browser, 30).until(EC.presence_of_element_located((By.ID, "id"))) # 等待,直到Dom中存在該id
WebDriverWait(browser, 30).until(EC.visibility_of_element_located((By.ID, "id"))) # 等待,直到Dom中存在該id并且可見
WebDriverWait(browser, 30).until(EC.element_to_be_clickable((By.XPATH,"//*[@id='u1']/a[8]"))) # 等待,直到該元素是可點擊的
WebDriverWait(browser, 30).until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR,'.main'),'enable')) # 判斷.main中是否包含enable字串,回傳布林值
WebDriverWait(browser, 30).until(EC.staleness_of(driver.find_element(By.ID,'id'))) # 等待,直到id從dom中移除
# 行為
browser.maximize_window() # 瀏覽器最大化
browser.minimize_window() # 瀏覽器最小化
browser.set_window_size(480, 800) # 自定義瀏覽器視窗大小
browser.forword() # 瀏覽器前進
browser.back() # 瀏覽器后退
browser.close() # 關閉瀏覽器當前視窗
browser.quit() # 退出瀏覽器驅動并關閉所有視窗
browser.refresh() # 重繪當前頁
browser.page_source # 獲取當前頁html
browser.title # 獲取當前頁標題
browser.url # 獲取當前頁url
browser.find_element_by_name("name").click() # 點擊物件
browser.find_element_by_name("name").send_keys("keyword") # 模擬鍵盤輸入
browser.find_element_by_name("name").clear() # 清除物件的內容
browser.find_element_by_name("name").submit() # 提交物件的內容
browser.find_element_by_name("name").text() # 獲取元素的文本資訊
browser.find_element_by_name("name").context_click() # 右鍵單擊
browser.find_element_by_name("name").double_click() # 雙擊
browser.find_element_by_name("name").is_displayed() # 是否用戶可見
# 模擬鍵盤事件
from selenium.webdriver.common.keys import Keys
browser.find_element_by_id("user_pwd").send_keys(Keys.ENTER) # 通過定位密碼框,enter(回車)來代替登陸按鈕
browser.find_element_by_id("login").send_keys(Keys.ENTER) # 點擊回車登陸(替代click),和上面效果一樣
browser.find_element_by_name("name").send_keys(Keys.CONTROL, "a") # 模擬ctrl+a
# iframe
browser.switch_to_frame("f1") # 找到 f1 iframe
browser.switch_to_window("f1") # 找到內嵌視窗 f1
driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])
三、其他使用
# 操作cookie
browser.get_cookie("name") # 根據name獲取單個cookie
browser.get_cookies() # 獲取所有cookie
browser.delete_all_cookies() # 洗掉所有cookies
browser.delete_cookie("name") # 根據name洗掉對應cookie
browser.add_cookie({"k1": "v1", "k2": "v2"}) # 設定cookies
# 獲取截屏
browser.get_screenshot_as_file("/usr/download/down_image.png") # 保存當前視窗截圖
browser.get_screenshot_as_png() # 獲取當前png截圖的二進制字串
# 獲取視窗資訊
browser.get_window_rect() # 獲取當前視窗xy坐標及當前視窗的高度和寬度
browser.get_window_position(windowHandle="current") # 獲取當前視窗的x,y坐標
browser.get_window_size(windowHandle="current") # 獲取當前視窗的高度和寬度
# 多視窗切換
driver.get("http://example.com") # 打開一個視窗
now_handle = drvier.current_window_handle # 獲取當前視窗句柄
driver.find_element_by_name('example').click() # 點擊某個元素打開新的視窗(target="_black"的元素)
all_handle = drvier.window_handles # 獲取所有視窗句柄
drvier.switch_to.window(now_handle) # 切換為第一視窗
driver.close() # 關閉當前視窗
# 通過input上傳附件
self.browser.find_element_by_xpath('//input[@]').send_keys("/Users/mac/Documents/myspider/selenium_spider/test.mp4") # 必須要用絕對路徑
3.1 切換標簽頁
每個標簽頁都有對應的視窗句柄,可以通過視窗句柄切換到對應的標簽頁,
# 1. 獲取當前所有的標簽頁的句柄構成的串列
current_windows = driver.window_handles
# 2. 根據標簽頁句柄串列索引下標進行切換
driver.switch_to.window(current_windows[0])
3.2 切換iframe
selenium操作iframe內容需要先switch_to到iframe,操作完成后需要切換回來
login_frame = driver.find_element_by_id('login_frame') # 根據id定位 frame元素
driver.switch_to.frame(login_frame) # 轉向到該frame中
# 利用切換標簽頁的方式切出frame標簽
windows = driver.window_handles
driver.switch_to.window(windows[0])
3.3 cookie操作
# 獲取cookie
cookies_dict = {cookie["name"]: cookie["value"] for cookie in driver.get_cookies()}
# 洗掉一個cookie
driver.delete_cookie("CookieName")
# 洗掉所有cookie
driver.delete_all_cookies()
# 添加一個cookie
add_cookie(cookie_dict)
3.4 執行JS代碼
script = 'window.scrollTo(0,document.body.scrollHeight)'
browser.execute_async_script(script, *args) # 在當前的window/frame中異步執行JS代碼
browser.execute_script(script, *args) # 在當前的window/frame中同步執行JS代碼
script: JS代碼(str)
*args: 要傳入js的引數(iterable)
3.5 上傳檔案
通過input上傳檔案
self.browser.find_element_by_xpath('//input[@]').send_keys("/Users/mac/Documents/myspider/selenium_spider/test.mp4") # 必須要用絕對路徑
3.6 截圖
browser.get_screenshot_as_file("/usr/download/down_image.png") # 保存當前視窗截圖
browser.get_screenshot_as_png() # 獲取當前png截圖的二進制字串
3.7 滑鼠事件
from selenium.webdriver.common.action_chains import ActionChains
el = driver.find_element_by_name('tj_trnews') # 目標元素
ActionChains(driver).context_click(el).perform() # 右擊目標元素
ActionChains(driver).double_click(el).perform() # 雙擊目標元素
source = driver.find_element_by_id('lg') # 目標元素原始位置
target = driver.find_element_by_id('kw') # 拖動的目標位置
ActionChains(driver).drag_and_drop(source, target).perform() # 拖動元素
ActionChains(driver).move_to_element(el).perform() # 滑鼠移動的目標元素上
ActionChains(driver).click_and_hold(el).perform() # 移動到目標元素按下滑鼠左鍵
3.8 控制已打開的瀏覽器
.\chrome.exe --remote-debugging-port=6001 --user-data-dir="C:\ProgramFiles\Chrome"
def init_driver():
options = webdriver.ChromeOptions()
options.add_experimental_option("debuggerAddress", "127.0.0.1:6001")
driver = webdriver.Chrome(options=options)
return driver
四、代碼示例
4.1 初始化driver
#!/usr/bin/env python
# coding:utf-8
import time
from selenium import webdriver
from selenium.webdriver.support.select import Select
def chromedriver_demo():
driver = webdriver.Chrome()
driver.delete_all_cookies()
driver.add_cookie({'name': 'ABC', 'value': 'DEF'})
driver.get_cookies()
driver.execute_script('window.open("https://www.baidu.com");')
"""
// chrome地址欄命令
about:version - 顯示當前版本
about:memory - 顯示本機瀏覽器記憶體使用狀況
about:plugins - 顯示已安裝插件
about:histograms - 顯示歷史記錄
about:dns - 顯示DNS狀態
about:cache - 顯示快取頁面
about:gpu -是否有硬體加速
about:flags -開啟一些插件
chrome://extensions/ - 查看已經安裝的擴展
// chrome引數
–user-data-dir=”[PATH]” 指定用戶檔案夾User Data路徑,可以把書簽這樣的用戶資料保存在系統磁區以外的磁區,
–disk-cache-dir=”[PATH]“ 指定快取Cache路徑
–disk-cache-size= 指定Cache大小,單位Byte
–first run 重置到初始狀態,第一次運行
–incognito 隱身模式啟動
–disable-javascript 禁用Javascript
–omnibox-popup-count=”num” 將地址欄彈出的提示選單數量改為num個,我都改為15個了,
–user-agent=”xxxxxxxx” 修改HTTP請求頭部的Agent字串,可以通過about:version頁面查看修改效果
–disable-plugins 禁止加載所有插件,可以增加速度,可以通過about:plugins頁面查看效果
–disable-javascript 禁用JavaScript,如果覺得速度慢在加上這個
–disable-java 禁用java
–start-maximized 啟動就最大化
–no-sandbox 取消沙盒模式
–single-process 單行程運行
–process-per-tab 每個標簽使用單獨行程
–process-per-site 每個站點使用單獨行程
–in-process-plugins 插件不啟用單獨行程
–disable-popup-blocking 禁用彈出攔截
–disable-plugins 禁用插件
–disable-images 禁用影像
–incognito 啟動進入隱身模式
–enable-udd-profiles 啟用賬戶切換選單
–proxy-pac-url 使用pac代理 [via 1/2]
–lang=zh-CN 設定語言為簡體中文
–disk-cache-dir 自定義快取目錄
–disk-cache-size 自定義快取最大值(單位byte)
–media-cache-size 自定義多媒體快取最大值(單位byte)
–bookmark-menu 在工具 欄增加一個書簽按鈕
–enable-sync 啟用書簽同步
–single-process 單行程運行Google Chrome
–start-maximized 啟動Google Chrome就最大化
–disable-java 禁止Java
–no-sandbox 非沙盒模式運行
"""
def init_driver(driver_path: str, timeout=20, user_agent: str = None, headless=False,
proxy: str = None, binary_location: str = None, user_data_dir: str = None,
crx_dir=None):
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("blink-settings=imagesEnabled=false") # 設定圖片不加載
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("disable-infobars") # 隱藏"Chrome正在受到自動軟體的控制"
chrome_options.add_argument("lang=zh_CN.UTF-8") # 設定中文
chrome_options.add_argument("window-size=1920x3000") # 指定瀏覽器解析度
chrome_options.add_argument("--hide-scrollbars") # 隱藏滾動條, 應對一些特殊頁面
chrome_options.add_argument("--remote-debugging-port=9222")
# chrome_options.binary_location = r"/Applications/Chrome" # 手動指定使用的瀏覽器位置
if headless:
chrome_options.add_argument("--headless")
if not user_agent:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.58"
chrome_options.add_argument("user-agent=%s" % user_agent)
if proxy:
chrome_options.add_argument("proxy-server=%s" % proxy)
if user_data_dir:
chrome_options.add_argument("--user-data-dir=%s" % user_data_dir)
if binary_location:
chrome_options.binary_location = binary_location # 手動指定使用的瀏覽器位置
if crx_dir:
chrome_options.add_extension(crx_dir) # 自定義加載擴展crx
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=driver_path)
driver.set_page_load_timeout(timeout)
driver.set_script_timeout(timeout)
return driver
def init_driver_with_exists_chrome():
"""
Start Chrome:
C:\Users\user\AppData\Local\Google\Chrome\Application\chrome.exe --remote-debugging-port=6001 --user-data-dir="C:\ProgramFiles\Chrome2"
"""
options = webdriver.ChromeOptions()
options.add_experimental_option("debuggerAddress", "127.0.0.1:6001")
driver = webdriver.Chrome(options=options)
return driver
def wait_html(driver):
while 1:
time.sleep(0.5)
if "Certification" in driver.page_source:
print("Success!!! Certification")
break
print("Certification")
# pass. to do next
def auto_input(driver):
# input keys
driver.find_element_by_xpath('//input[@name="CMT_SSN_1"]').send_keys("")
# click button 1
driver.find_element_by_xpath('//input[@name="CCA_QUIT_IND"][@value="https://www.cnblogs.com/xyya/archive/2021/04/27/N"]').click()
# click button 2 (with js)
driver.execute_script("""
var e = document.createEvent("MouseEvents");
e.initEvent("click", true, true);
document.getElementById("nextBtn").dispatchEvent(e);
""")
# click button 3
element = driver.find_element_by_id('login')
webdriver.ActionChains(driver).move_to_element(element).click(element).perform()
# selection
Select(driver.find_element_by_xpath('//select[@name="CMT_ID_TYPE_CD"]')).select_by_index(2)
Select(driver.find_element_by_xpath('//select[@name="CWE_CONTACT_OUTCOME_CD_02"]')).select_by_value("3")
if __name__ == "__main__":
url = "https://m.amap.com/service/poi/id.json?id=B0FFH5BLJA"
driver_path = "spider_data/chromedriver.exe"
init_driver(driver_path)
五、參考文章
- Python+Selenium基礎入門及實踐
- python中selenium使用
- Selenium Webdriver常用方法
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/280872.html
標籤:其他
下一篇:實作spaCy物體標注模型
