蜘蛛爬行策略或網路抓取-有解無憂

這些處理被稱為網路抓取或者蜘蛛爬行，很多站點，尤其是搜索引擎，都使用爬蟲提供最新的資料，它主要用于提供它訪問過頁面的一個副本，然后，搜索引擎就可以對得到的頁面進行索引，以提供快速的訪問，

打開百度APP，查看更多高清圖片

蜘蛛也可以在web上用來自動執行一些任務，例如檢查連接，確認html代碼；也可以用來抓取網頁上某種特定型別資訊，例如抓取電子郵件地址（通常用于垃圾郵件），

一個網路蜘蛛就是一種機器人，或者軟體代理，大體上，它從一組要訪問的URL鏈接開始，可以稱這些URL為種子，爬蟲訪問這些鏈接，它辨認出這些頁面的所有超鏈接，然后添加到這個URL串列，可以稱作檢索前沿，這些URL按照一定的策略反復訪問，

爬行策略

下述的三種網路特征，造成了設計網頁爬蟲抓取策略變得很難：

它巨大的資料量；

它快速地更新頻率；

動態頁面的產生

它們三個特征一起產生了很多種類的爬蟲抓取鏈接，

巨大的資料量暗示了爬蟲，在給定的時間內，只可以抓取所下載網路的一部分，所以，它需要對它的抓取頁面設定優先級；快速的更新頻率說明在爬蟲抓取下載某網站一個網頁的時候，很有可能在這個站點又有新的網頁被添加進來，或者這個頁面被更新或者洗掉了，

最近新增的很多頁面都是通過服務器端腳本語言產生的，無窮的引陣列合也增加了爬蟲抓取的難度，只有一小部分這種組合會回傳一些獨特的內容，例如，一個很小照片存盤庫僅僅通過get方式可能提供就給用戶三種操作方式，如果這里存著四種分類方式，三種縮略圖方式，兩種檔案格式，和一個禁止用戶提供內容的選項，那么，同樣的內容就可以通過48種方式訪問，這種數學組合給網路爬蟲創造的難處就是，為了獲取不同的內容，他們必須篩選無窮僅有微小變化的組合，

正如愛德華等人所說的：“用于檢索的帶寬不是無限的，也不是免費的；所以，如果引入衡量爬蟲抓取質量或者新鮮度的有效指標的話，不但伸縮性，連有效性都將變得十分必要”（愛德華等人，2001年），一個爬蟲就必須小心地選擇下一步要訪問什么頁面，網頁爬蟲的行為通常是四種策略組合的結果，

選擇策略，決定所要下載的頁面；

重新訪問策略，決定什么時候檢查頁面的更新變化；

平衡禮貌策略，指出怎樣避免站點超載；

并行策略，指出怎么協同達到分布式抓取的效果；

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/194155.html

標籤：其他

上一篇：Graphql請求的RBAC權限控制

下一篇：「有數可據」選擇IT行業的1000個理由！