我正在嘗試抓取一個網站,這兩個規則在 robots.txt 中似乎是矛盾的
User-agent: *
Disallow: *
Allow: /
是否Allow: /意味著我可以抓取整個網站,或者只是根目錄?好像意味著我可以抓取整個站點,那么這與之前的規則直接矛盾。
uj5u.com熱心網友回復:
如果您遵循原始 robots.txt 標準:
- 禁止行中的
*將被視為文字而不是通配符。該行將不允許以星號開頭的 URL 路徑。所有 URL 路徑都以 開頭/,因此該規則不允許任何內容。 - 該
Allow規則不在規范中,因此該行將被忽略。
結論:您可以抓取該網站。
Google 和其他一些爬蟲支持通配符和允許。如果您關注 Google 對 robots.txt 的擴展,以下是 Google 對 robots.txt 的解釋:
- 兩者都
Allow: /匹配Disallow: *網站上的任何特定路徑。 - 在這種沖突的情況下,更具體的規則(即更長的)規則獲勝。
/并且*都是一個字符,因此兩者都不被認為比另一個更具體。 - 在特異性并列的情況下,限制最少的規則獲勝。
Allow被認為比 限制更少Disallow。
結論:您可以抓取該網站。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/460055.html
上一篇:僅在同一類下抓取網頁的一個元素
下一篇:從表中抓取多個網站資料
