橡皮擦,一個逗趣的互聯網高級網蟲,
這篇文章是直播 《爬蟲雖好卻危險,小姐姐解答爬蟲三千問》 的文字稿,希望能幫助到大家,

資料采集手段之一:爬蟲
網路爬蟲是資料采集的一種形式,它可以由任意語言實作,Python,Java,Go 實作原理基本一致,甚至 PHP 撰寫爬蟲 Web 站在某段時間是仿站的主流手段,
資料采集的作業是從資料源獲得資料資訊,目前大家最熟識的就是網路爬蟲,在具體些分為,網頁爬蟲和 APP 爬蟲,
網頁爬蟲一般英文叫做 web crawler,一般是指用腳本工具來截取網頁上的內容,本質是一種資料收集工具,
網頁爬蟲常見的軟體有:Charles,Fiddler,Wireshark,
APP 爬蟲撰寫中常用的軟體有:mitmproxy,Packet Capture,tcpdump,
工具沒有最好,只有最熟悉與最適合你的,
爬蟲涉及的領域
- 搜索引擎,例如百度;
- 垂直爬蟲,例如搶票軟體;
- 社交爬蟲,例如微博爬蟲;
- 自動化爬蟲,例如評論器;
- 輿情監控;
- 聚合資料,
- ……,
學習爬蟲,需要學會的 Python 技術堆疊與框架
- Python 語法;
- 正則運算式;
- 前端之 HTML+CSS+JS;
- MySQL;
- Redis;
- requests;
- scrapy;
- ……,
常見的反爬手段
- 驗證碼;
- IP 驗證;
- JS 加密;
- 字體加密;
- 特征識別;
- ……,
學習爬蟲最佳的路線
Python 語言體系,
- Python 基礎,到面向物件;
- HTML+CSS;
- 正則運算式;
- requests 框架;
- JSON;
- MySQL;
- Redis;
- Scrapy;
- APP 爬蟲;
- 反反爬;
- 分布式爬蟲;
- ……,
爬蟲會觸犯法律嗎?
- 爬取程序中,搞壞了別人的服務器,或者造成攻擊,就是違法;
- 爬取個人資訊,出售個人資訊,就是違法;
- 通過技術手段獲取計算機存盤、處理或者傳輸的資料,就是違法;
- 對計算機資訊系統功能或計算機資訊系統中存盤、處理或者傳輸的資料和應用程式進行破壞,就是違法;
- 把別人的收費課件,課程,資料爬取過來,進行二次銷售,就是違法;
- 以技術手段逆向手機 APP 獲取資料,就是違法;
- 對獲取到的公司資料,進行銷售獲取收益,就是違法;
任何個人和組織不得竊取或者以其他非法方式獲取個人資訊,不得非法出售或者非法向他人提供個人資訊;
個人資訊,是指以電子或者其他方式記錄的能夠單獨或者與其他資訊結合識別自然人個人身份的各種資訊,包括但不限于自然人的姓名、出生日期、身份證件號碼、個人生物識別資訊、住址、電話號碼等,
總結下來:
學習爬蟲,一定注意 不可爬取個人隱私資訊,不要采用爬蟲非法獲利,不要爬取網站的付費內容,
相關閱讀
- Python 爬蟲 100 例教程,超棒的爬蟲教程,立即訂閱吧
- Python 游戲世界(更新中,目標文章數 50+,現在訂閱,都是老粉)
- Python 爬蟲小課,精彩 9 講,只要 9 塊 9
今天是持續寫作的第 136 / 200 天,
如果你想跟博主建立親密關系,可以關注同名公眾號 夢想橡皮擦,近距離接觸一個逗趣的互聯網高級網蟲,
博主 ID:夢想橡皮擦,希望大家點贊、評論、收藏,
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/278120.html
標籤:其他
上一篇:【C語言從青銅到榮耀——6】
