1.http:(1)當?戶在地址輸?了?址 發送?絡請求的程序是什么 (2)http的請求?式 get請求 (1)?較便捷 缺點:不安全:明? 引數的?度有限制 post請求 (1)?較安全 (2)資料整體沒有限制 (3)上傳?件 put(不完全的) delete(洗掉 ? 些資訊) head(請求頭) 發送?絡請求(需要帶 ? 定的資料給服務器不帶資料也可以) 請求頭??requestheader 回傳資料:response (1)Accept:?本的格式 (2)Accept - Encoding:編碼格式 (3)Connection:?鏈接 短鏈接 (4)Cookie:驗證?的 (5)Host:域名 (6)Referer:標志從哪個??跳轉過來的 (7)User - Agent:瀏覽器和?戶的資訊 2. 爬???:使?代碼模擬?戶 批量的發送?絡請求 批量的獲取資料 (1)爬?的價值: 1. 買賣資料(?端的領域價格特別貴)2. 資料分析:出分析報告 3. 流量 4. 指數阿?指數,百度指數 (3)合法性:灰?產業 政府沒有法律規定爬?是違法的,也沒有法律規定爬?是合法的 公司概念:公司讓你爬資料庫(竊取商業機密)責任在公司 (4)爬?可以爬取所有東??(不是)爬?只能爬取?戶能訪問到的資料 愛奇藝的視頻(vip?vip) 1. 普通?戶 只能看?vip 爬取?vip的的視頻 2.vip 爬取vip的視頻 3. 普通?戶想要爬取vip視頻(?客) 爬?的分類:(1)通?爬? 1. 使?搜索引擎:百度 ?歌 360 雅? 搜狗 優勢:開放性 速度快 劣勢:?標不明確 回傳內容:基本上%90是?戶不需要的 不清楚?戶的需求在哪? (2)聚焦爬?(學習) 1. ?標明確 2. 對?戶的需求?常精準 3. 回傳的內容很固定 增量式:翻?:從第 ? ?請求到最后 ? ? Deep 深度爬?:靜態資料:html css 動態資料:js代碼,加密的js robots:是否允許其他爬?(通?爬?)爬取某些內容 聚焦爬?不遵守robots 爬?和反扒做?爭:資源對等 勝利的永遠是爬? 爬?的?作原理: 1. 缺?你抓取?標的url是哪 ? 個(找) 2. 使?python代碼發送請求獲取資料(java Go) 3. 決議獲取到的資料(精確資料)(1)找到新的?標(url)回到第 ? 步(?動化) 4. 資料持久化 python3(原?提供的模塊):urlib.rquest: (1)urlopen : 1. 回傳response物件 2.response.read() 3.bytes.decode( " utf - 8 " ) (2)get:傳參 1. 漢字報錯 :解釋器ascii沒有漢字,url漢字轉碼 (3)post (4)handle處理器的?定義 (5)urlError python(原?提供的):urlib2 接下來將的知識點: 5.request(第三?) 6. 資料決議:xpath bs4 7. 資料存盤
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/91819.html
標籤:Python
上一篇:節的設定
