python爬蟲基本概述

一、爬蟲是什么

網路爬蟲（Crawler）又稱網路蜘蛛，或者網路機器人（Robots）. 它是一種按照一定的規則，自動地抓取萬維網資訊的程式或者腳本，換句話來說，它可以根據網頁的鏈接地址自動獲取網頁內容，如果把互聯網比做一個大蜘蛛網，它里面有許許多多的網頁，網路蜘蛛可以獲取所有網頁的內容，

爬蟲是一個模擬人類請求網站行為, 并批量下載網站資源的一種程式或自動化腳本，

二、爬蟲可以做什么

1. 搜索引擎

2. 采集金融資料

3. 采集商品資料

4. 采集競爭對手的客戶資料

5. 采集行業相關資料，進行資料分析

6. 刷流量

三、爬蟲的分類

1、通用網路爬蟲又稱為全網爬蟲，其爬取物件由一批 URL 擴充至整個 Web，主要由搜索引擎或大型 Web 服務商使用，

2、聚焦網路爬蟲又稱為主題網路爬蟲，其特點是只選擇性的地爬取與預設的主題相關的頁面，相比通用網絡爬蟲，聚焦網路爬蟲僅需要爬取與主題相關的頁面，極大地節省硬體及網路資源，能更快的更新保存頁面，更好的滿足特定人群對特定領域的需求，

3、增量網路爬蟲只對已下載的網頁采取增量式更新，或只爬取新產生的及已經發生變化的網頁，這種機制能夠在某種程度上保證所爬取的網頁盡可能的新，

4、深度網路爬蟲 Web 頁面按照存在的方式可以分為表層頁面和深層頁面兩類，表層頁面是只傳統搜索引擎可以索引到的頁面，以超鏈接可以達到的靜態頁面為主，深層頁面是指大部分內容無法通過靜態鏈接獲取，隱藏在搜索表單之后的，需要用戶提交關鍵詞后才能獲得的 Web 頁面，如一些登陸后可見的網頁，

四、爬蟲的基本流程

1、瀏覽網頁的流程

2 、爬蟲的基本流程

1. 請求網頁通過 HTTP 庫向目標站點發起請求，即發送一個 Request，請求可以包含額外的 headers 等資訊，等待服務器回應!

2. 獲得相應內容如果服務器能正常回應，會得到一個 Response，Response 的內容便是所要獲取的頁面內容，型別可能有 HTML，Json 字串，二進制資料（如圖片視頻）等型別，

3. 決議內容得到的內容可能是 HTML，可以用正則運算式、網頁決議庫進行決議，可能是Json，可以直接轉為 Json 物件決議，可能是二進制資料，可以做保存或者進一步的處理，

4. 存盤決議的資料保存形式多樣，可以存為文本，也可以保存至資料庫，或者保存特定格式的檔案

3 、爬蟲的測驗案例

爬取搜狗首頁的頁面資料

# 導包
import requests
# step_1 : 指定url
url ='https://www.sogou.com/'
# step_2 : 發起請求:
# 使用get 方法發起get 請求， 該方法會回傳一個回應物件，引數url 表示請求對應的url
response = requests.get ( url = url )
# step_3 : 獲取回應資料:
# 通過呼叫回應物件的text 屬性， 回傳回應物件中存盤的字串形式的回應資料（ 頁面原始碼資料）
page_text = response . text
# step_4 : 持久化存盤
with open ('sogou.html','w',encoding ='utf -8') as fp:
    fp.write (page_text)
print ('爬取資料完畢！ ！ ！')

得到sogou.html

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/523883.html

標籤：其他

上一篇：Java獲取/resources目錄下的資源檔案方法

下一篇：談談程式員 35 歲危機，太真實了……