
這些處理被稱為網路抓取或者蜘蛛爬行,很多站點,尤其是搜索引擎,都使用爬蟲提供最新的資料,它主要用于提供它訪問過頁面的一個副本,然后,搜索引擎就可以對得到的頁面進行索引,以提供快速的訪問,
打開百度APP,查看更多高清圖片
蜘蛛也可以在web上用來自動執行一些任務,例如檢查連接,確認html代碼;也可以用來抓取網頁上某種特定型別資訊,例如抓取電子郵件地址(通常用于垃圾郵件),
一個網路蜘蛛就是一種機器人,或者軟體代理,大體上,它從一組要訪問的URL鏈接開始,可以稱這些URL為種子,爬蟲訪問這些鏈接,它辨認出這些頁面的所有超鏈接,然后添加到這個URL串列,可以稱作檢索前沿,這些URL按照一定的策略反復訪問,

爬行策略
下述的三種網路特征,造成了設計網頁爬蟲抓取策略變得很難:
它巨大的資料量;
它快速地更新頻率;
動態頁面的產生
它們三個特征一起產生了很多種類的爬蟲抓取鏈接,
巨大的資料量暗示了爬蟲,在給定的時間內,只可以抓取所下載網路的一部分,所以,它需要對它的抓取頁面設定優先級;快速的更新頻率說明在爬蟲抓取下載某網站一個網頁的時候,很有可能在這個站點又有新的網頁被添加進來,或者這個頁面被更新或者洗掉了,
最近新增的很多頁面都是通過服務器端腳本語言產生的,無窮的引陣列合也增加了爬蟲抓取的難度,只有一小部分這種組合會回傳一些獨特的內容,例如,一個很小照片存盤庫僅僅通過get方式可能提供就給用戶三種操作方式,如果這里存著四種分類方式,三種縮略圖方式,兩種檔案格式,和一個禁止用戶提供內容的選項,那么,同樣的內容就可以通過48種方式訪問,這種數學組合給網路爬蟲創造的難處就是,為了獲取不同的內容,他們必須篩選無窮僅有微小變化的組合,
正如愛德華等人所說的:“用于檢索的帶寬不是無限的,也不是免費的;所以,如果引入衡量爬蟲抓取質量或者新鮮度的有效指標的話,不但伸縮性,連有效性都將變得十分必要”(愛德華等人,2001年),一個爬蟲就必須小心地選擇下一步要訪問什么頁面,網頁爬蟲的行為通常是四種策略組合的結果,

選擇策略,決定所要下載的頁面;
重新訪問策略,決定什么時候檢查頁面的更新變化;
平衡禮貌策略,指出怎樣避免站點超載;
并行策略,指出怎么協同達到分布式抓取的效果;
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/194155.html
標籤:其他
