一、驗證碼破解
1.(上承連載15)極驗
(1)官網:http://www.geetest.com
破解比較麻煩、可以模擬滑鼠移動、一直在進化
二、Tesseract
1.機器視覺領域的基礎軟體
2.OCR?:OpticalCharacterRecognition
3.Tesseract?:一個OCR庫,有谷歌資助
?安裝:https://blog.csdn.net/showgea/article/details/82656515
import pytesseract as pt import os ? # os.path() from PIL import Image #生成圖片實體 image = Image.open(r"C:\Users\lenovo1\untitled\image\testOCR.jpg") #呼叫pytesseract,把圖片轉換為文字 text = pt.image_to_string(image) print(text)
三、爬蟲框架Scrapy
1.常見的爬蟲框架scrapy\pyspider\crawley,基本都是開源的
2.官方檔案:https://docs.scrapy.org/en/latest/
3.該框架包含如下各個部件
(1)ScrapyEngine:神經中樞、大腦、核心
(2)Scheduler?調度器:引擎發來的request請求,調度器需要處理,然后?交換引擎,
(3)Downloader?下載器:把引擎發來的requests發出請求,得到response
(4)Spider?爬蟲:負責把下載器得到的網頁/結果進行分解,分解成資料+鏈接?,
(5)Item?Pipeline管道:詳細處理Item
(6)DownloaderMiddleware?下載中間件:自定義下載的功能擴展組件
(7)Spidermiddleware?爬蟲中間件:


4.爬蟲專案大概流程
(1)?新建專案:scrapy startproject xxx
(2)明確需要的目標/產出?:撰寫item.py
(3)?制作爬蟲:?地址:spider/xxspider.py
(4)?存盤內容:pipelines.py?
四、原始碼
Reptile16_1_VertificationCodeRecognition.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptile16_1_VertificationCodeRecognition.py
2.CSDN:https://blog.csdn.net/weixin_44630050
3.博客園:https://www.cnblogs.com/ruigege0000/
4.歡迎關注微信公眾號:傅里葉變換,個人公眾號,僅用于學習交流,后臺回復”禮包“,獲取大資料學習資料

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/167452.html
標籤:Python
下一篇:用python計算圓周率π
