Splash
Splash是一個Javascript渲染服務,它是一個實作了HTTP API的輕量級瀏覽器,Splash是用Python實作的,是一個頁面渲染服務器,回傳渲染后的頁面,便于爬取,便于規模應用,
很多人學習python,不知道從何學起,
很多人學習python,掌握了基本語法過后,不知道在哪里尋找案例上手,
很多已經做案例的人,卻不知道如何去學習更加高深的知識,
那么針對這三類人,我給大家提供一個好的學習平臺,免費領取視頻教程,電子書籍,以及課程的源代碼!
QQ群:961562169
https://splash.readthedocs.io/en/stable/
檔案地址:https://splash.readthedocs.io/en/stable/api.html
Scrapy
Scrapy是一個適用爬取網站資料、提取結構性資料的應用程式框架,它可以應用在廣泛領域:Scrapy 常應用在包括資料挖掘,資訊處理或存盤歷史資料等一系列的程式中,通常我們可以很簡單的通過 Scrapy 框架實作一個爬蟲,抓取指定網站的內容或圖片,盡管Scrapy原本是設計用來螢屏抓取(更精確的說,是網路抓取),但它也可以用來訪問API來提取資料,
https://docs.scrapy.org/en/latest/
pyspider
一個國人撰寫的強大的網路爬蟲系統并帶有強大的WebUI,采用Python語言撰寫,分布式架構,支持多種資料庫后端,強大的WebUI支持腳本編輯器,任務監視器,專案管理器以及結果查看器,
http://docs.pyspider.org/en/latest/
Selenium
Selenium是一個用于Web應用程式測驗的工具,Selenium測驗直接運行在瀏覽器中,就像真正的用戶在操作一樣,框架底層使用JavaScript模擬真實用戶對瀏覽器進行操作,測驗腳本執行時,瀏覽器自動按照腳本代碼做出點擊,輸入,打開,驗證等操作,就像真實用戶所做的一樣,從終端用戶的角度測驗應用程式,
Selenium 的核心,也稱browser bot,是用 JavaScript 撰寫的,這使得測驗腳本可以在受支持的瀏覽器中運行,browser bot 負責執行從測驗腳本接收到的命令,測驗腳本要么是用 HTML 的表布局撰寫的,要么是使用一種受支持的編程語言撰寫的,
https://www.selenium.dev/documentation/en/
檔案地址:
https://selenium-python.readthedocs.io/index.html
Selenium依賴的WebDriver
- chrome driver:https://chromedriver.chromium.org/downloads
Requests
Requests是一常用的http請求庫,它使用python語言撰寫,可以方便地發送http請求,以及方便地處理回應結果,
https://requests.readthedocs.io/en/master/
Phantomjs
phantomjs實作了一個無界面的webkit瀏覽器,雖然沒有界面,但dom渲染、js運行、網路訪問、canvas/svg繪制等功能都很完備,在頁面抓取、頁面輸出、自動化測驗等方面有廣泛的應用,
https://phantomjs.org/
Beautiful Soup
Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫,提供一些簡單的、python式的函式用來處理導航、搜索、修改分析樹等功能,它是一個工具箱,通過決議檔案為用戶提供需要抓取的資料
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
pyquery
強大而靈活的網頁決議庫,如果你覺得正則寫起來太麻煩,如果你覺得BeautifulSoup語法太難記,如果你熟悉jQuery的語法,那么PyQuery就是你的絕佳選擇!!!
https://pythonhosted.org/pyquery/
tesserocr
Tesserocr是python的一個OCR識別庫,但其實是對tesseract做的一層python API封裝,可以用于驗證碼圖片的識別,
https://github.com/sirfz/tesserocr
AIOHTTP
一個異步的 HTTP 客戶端\服務端框架,基于 asyncio 的異步模塊,可用于實作異步爬蟲,更快于 requests 的同步爬蟲,
https://docs.aiohttp.org/en/stable/
Charles
Charles 是在 PC 端常用的網路封包截取工具,在做移動開發時,我們為了除錯與服務器端的網路通訊協議,常常需要截取網路封包來分析,Charles 通過將自己設定成系統的網路訪問代理服務器,使得所有的網路訪問請求都通過它來完成,從而實作了網路封包的截取和分析,
https://www.charlesproxy.com/
mitmproxy
mitmproxy是一個支持HTTP和HTTPS的抓包程式,有類似Fiddler、Charles的功能,只不過它是一個控制臺的形式操作,mitmproxy還有兩個關聯組件,一個是mitmdump,它是mitmproxy的命令列介面,利用它我們可以對接Python腳本,用Python實作監聽后的處理,另一個是mitmweb,它是一個Web程式,通過它我們可以清楚觀察mitmproxy捕獲的請求,
https://mitmproxy.org/
Appium
selenium是web端的自動化,appium是app端的自動化,Appium 是一個自動化測驗開源工具,支持iOS 平臺和Android 平臺上的原生應用,web 應用和混合應用,
http://appium.io/
相關推薦
Firefox資料采集插件大全python在linux下安裝方法(解決舊版本沖突)Python爬取分析拉勾網職位資料Java使用lombok自動生成getter和setter方法2012年百度、騰訊、微軟、奇虎360、人人、去哪網找作業經歷總結[網址]在線轉換編碼-BASE64_URLENCODE等轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/107562.html
標籤:其他
