一、動態HTML
1.爬蟲跟反爬蟲
2.動態HTML連載
(1)JavaScript
(2)jQuery
(3)Ajax
(4)DHTML
(5)Python采集動態資料
從JavaScript代碼入手采集?;Python第三方庫運行JavaScript,直接采集你在瀏覽器中看到的頁面
二、Selenium + PhantomJS
1.Selenium:web自動化測驗工具
(1)?自動加載頁面;(2)?獲取資料;(3)截屏
?(4)官方檔案:http://selenium-python.readthedocs.io/index.html
2.PhantomJS
(1)基于WebKit的無界面的瀏覽器
(2)?官方網站:http://phantomjs.org/download.html
3.Selenium庫有一個WebDriver的API
4.WebDriver可以跟頁面上的元素進行各種互動,用它可以來進行爬取
"""
通過webdriver操作模擬進行查找
"""
from selenium import webdriver
import time
#通過keys模擬鍵盤
from selenium.webdriver.common.keys import Keys
#操作哪個瀏覽器就對哪個瀏覽器建立一個實體
#自動按斬訓境變數查找相應的瀏覽器
driver = webdriver.PhantomJS()#這個就是瀏覽器的實體
#如果瀏覽器沒有相應的環境瀏覽器,需要指定瀏覽器位置
driver.get("http://www.baidu.com")#去訪問這個網站,然后獲取回傳的資料
#通過函式查找title標簽
print("Title:{0}".format(driver.title))
?
5.Chrome + Chromedriver
下載Chrome?:下載和安裝
Chromdriver?安裝
五、原始碼
Reptile14_1_DHTML.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptile14_1_DHTML.py
2.CSDN:https://blog.csdn.net/weixin_44630050
3.博客園:https://www.cnblogs.com/ruigege0000/
4.歡迎關注微信公眾號:傅里葉變換,個人公眾號,僅用于學習交流,后臺回復”禮包“,獲取大資料學習資料

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/177284.html
標籤:Python
上一篇:python中getattr詳解
