爬蟲第一課-有解無憂

1.http:(1)當?戶在地址輸?了?址發送?絡請求的程序是什么 (2)http的請求?式 get請求 (1)?較便捷缺點:不安全:明? 引數的?度有限制 post請求 (1)?較安全 (2)資料整體沒有限制 (3)上傳?件 put(不完全的) delete(洗掉 ? 些資訊) head(請求頭) 發送?絡請求(需要帶 ? 定的資料給服務器不帶資料也可以) 請求頭??requestheader 回傳資料:response (1)Accept:?本的格式 (2)Accept - Encoding:編碼格式 (3)Connection:?鏈接短鏈接 (4)Cookie:驗證?的 (5)Host:域名 (6)Referer:標志從哪個??跳轉過來的 (7)User - Agent:瀏覽器和?戶的資訊 2. 爬???:使?代碼模擬?戶批量的發送?絡請求批量的獲取資料 (1)爬?的價值: 1. 買賣資料(?端的領域價格特別貴)2. 資料分析:出分析報告 3. 流量 4. 指數阿?指數,百度指數 (3)合法性:灰?產業政府沒有法律規定爬?是違法的,也沒有法律規定爬?是合法的公司概念:公司讓你爬資料庫(竊取商業機密)責任在公司 (4)爬?可以爬取所有東??(不是)爬?只能爬取?戶能訪問到的資料愛奇藝的視頻(vip?vip) 1. 普通?戶只能看?vip 爬取?vip的的視頻 2.vip 爬取vip的視頻 3. 普通?戶想要爬取vip視頻(?客) 爬?的分類:(1)通?爬? 1. 使?搜索引擎:百度 ?歌 360 雅? 搜狗優勢:開放性速度快劣勢:?標不明確回傳內容:基本上%90是?戶不需要的不清楚?戶的需求在哪? (2)聚焦爬?(學習) 1. ?標明確 2. 對?戶的需求?常精準 3. 回傳的內容很固定增量式:翻?:從第 ? ?請求到最后 ? ? Deep 深度爬?:靜態資料:html css 動態資料:js代碼,加密的js robots:是否允許其他爬?(通?爬?)爬取某些內容聚焦爬?不遵守robots 爬?和反扒做?爭:資源對等勝利的永遠是爬? 爬?的?作原理: 1. 缺?你抓取?標的url是哪 ? 個(找) 2. 使?python代碼發送請求獲取資料(java Go) 3. 決議獲取到的資料(精確資料)(1)找到新的?標(url)回到第 ? 步(?動化) 4. 資料持久化 python3(原?提供的模塊):urlib.rquest: (1)urlopen : 1. 回傳response物件 2.response.read() 3.bytes.decode( " utf - 8 " ) (2)get:傳參 1. 漢字報錯 :解釋器ascii沒有漢字,url漢字轉碼 (3)post (4)handle處理器的?定義 (5)urlError python(原?提供的):urlib2 接下來將的知識點: 5.request(第三?) 6. 資料決議:xpath bs4 7. 資料存盤

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/91819.html

標籤：Python

上一篇：節的設定

下一篇：python DataFrame pct_change()