抖音資料采集教程,最全python庫selenium自動化使用
一、安裝selenium
pip install Selenium
二、初始化瀏覽器
- Chrome 是初始化谷歌瀏覽器
- Firefox 是初始化火狐瀏覽器
- Edge 是初始化IE瀏覽器
- PhantomJS 是一個無界面瀏覽器,
from selenium import webdriver
driver = webdriver.Chrome()
三、設定瀏覽器大小
- maximize_window 最大化視窗
- set_window_size 自定義視窗大小
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
四、訪問頁面
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
五、定位元素
- 定位元素的基本方法如下
| 定位一個元素 | 定位多個元素 | 解釋 |
|---|---|---|
| find_element_by_id | find_elements_by_id | 通過元素id定位 |
| find_element_by_name | find_elements_by_name | 通過元素name定位 |
| find_element_by_xpath | find_elements_by_xpath | 通過xpath運算式定位 |
| find_element_by_link_text | find_elements_by_link_tex | 通過完整超鏈接定位 |
| find_element_by_partial_link_text | find_elements_by_partial_link_text | 通過部分鏈接定位 |
| find_element_by_tag_name | find_elements_by_tag_name | 通過標簽定位 |
| find_element_by_class_name | find_elements_by_class_name | 通過類名進行定位 |
| find_elements_by_css_selector | find_elements_by_css_selector | 通過css選擇器進行定位 |
- **實體演示: ** 找到百度首頁的輸入框
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element_by_id('kw')
六、定位元素的另一種寫法
- 需引入By模塊
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element(By.ID, 'kw')
七、元素互動
| 方法 | 解釋 |
|---|---|
| click() | 點擊某個元素 |
| send_keys(輸入的值) | 模擬輸入 |
| clear() | 清除操作 |
| submit() | 提交表單 |
| get_attribute(name) | 獲取元素的屬性值 |
| location | 獲取元素的位置 |
| text | 獲取元素的文本值 |
| size | 獲取元素的大小 |
| id | 獲取元素的id值 |
| tag_name | 獲取元素的標簽名 |
- 實體演示: ****在百度輸入框中輸入我是autofelix,并點擊搜索按鈕
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element_by_id('kw').send_keys('我是autofelix')
driver.find_element_by_id('su').click()
八、執行js
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
js_sql = '''
document.getElementById('kw').value = 'https://www.cnblogs.com/titodata/archive/2020/12/15/我是autofelix'
'''
driver.execute_script(js_sql)
九、Frame操作
- 網頁中frame的話,需要執行切入切出操作
- switch_to.from(子iframe的id名稱) 切入
- switch_to.parent_frame(父iframe的id名稱) 切出
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
//這個網址并沒有iframe,我臆測有,你們看看就行
driver.switch_to.frame('我臆測出來的iframe')
十、cookie的操作
| 方法 | 說明 |
|---|---|
| delete_all_cookies() | 洗掉當前頁面所有cookies |
| get_cookie(name) | 獲取指定cookie值 |
| get_cookies() | 獲取當前頁面所有cookies值 |
| add_cookie() | 設定cookie值 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
driver.delete_all_cookies()
driver.add_cookie({'name': 'name', 'domain': '.baidu.com', 'value': 'autofelix'})
十一、選項卡管理
| 方法 | 解釋 |
|---|---|
| window_handles | 保存所有選項卡的元組 |
| switch_to.window() | 切換選項卡 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
driver.get('https://www.taobao.com')
driver.switch_to.window(driver.window_handles[0])
driver.switch_to.window(driver.window_handles[1])
十二、滑鼠事件
-
滑鼠事件需要引入
ActionChains模塊
| 方法 | 說明 |
| :--- | :--- |
| move_to_element(above) | 滑鼠右擊 |
| double_click() | 滑鼠雙擊 |
| drag_and_drop() | 左鍵按住拖動 |
| perform() | 動作存盤 | -
**實體演示: **滑動滑塊驗證碼
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 初始化谷歌瀏覽器
driver = webdriver.Chrome()
# 最大化視窗
driver.maximize_window()
# 打開頭條登陸網址
driver.get('https://sso.toutiao.com')
# 等待某個元素是否出現
WebDriverWait(self.driver, 10).until(
EC.text_to_be_present_in_element((By.XPATH, '//*[@id="mobile-code-get"]/span'), u'發送')
)
# 實體化滑鼠操作
action = ActionChains(self.driver)
# 按住滑塊
action.click_and_hold(self.driver.find_element_by_xpath('//*[@id="captcha_container"]')).perform()
# 將滑塊移動x的距離
action.move_by_offset(xoffset=x, yoffset=0).perform()
# 釋放滑塊
action.release().perform()
十三、等待
- 隱氏等待
- 如果到一定時間,指定的元素還沒有出現,行程不會阻塞,但是到指定時間還沒有找到,就會拋出例外
from selenium import webdriver
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.baidu.com')
- 顯示等待
- 如果在一定時間內,指定的元素沒有出現,行程會阻塞在這里,如果到指定時間還沒有找到,就會拋出例外
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.baidu.com')
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, 'kw'))
)
十四、前進、后退和重繪
- back 后退
- forward 前進
- refresh 重繪瀏覽器
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.get('https://www.taobao.com')
driver.get('https://www.jd.com')
driver.back()
driver.forward()
driver.refresh()
十五、關閉瀏覽器
- close 關閉當前標簽頁
- quit 關閉整個瀏覽器
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
//打開百度頁面后,關閉整個瀏覽器
driver.quit()
抖音,快手,小紅書資料采集介面,檔案地址: TiToData
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/234810.html
標籤:其他
上一篇:常用的大資料架構都有哪幾種?
