xctf攻防世界—Web新手練習區robots單題思路
- @邱邱邱自強
前言
隨著互聯網的發展,互聯網界的行為也越來越被重視,那么國際互聯網界通行的道德規范是什么呢?它就是Robots協議,
一、Robots協議是什么?
robots協議也叫robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本檔案,
二、使用步驟
1.方法
方法一:
通過百度網址,進入百度搜索引擎頁面(https://www.baidu.com/)
如何利用百度查看網站的Robots協議
在搜索框里面隨便輸入你想搜索的資訊
如果出現這段文字:“由于該網站的robots.txt檔案存在限制指令(限制搜索引擎抓取),系統無法提供該頁面的內容描述 - 了解詳情”
如何利用百度查看網站的Robots協議
滑鼠移到了解詳情,左鍵單擊 --> 進入了解詳情頁面
如何利用百度查看網站的Robots協議
可以輸入你想要了解的網站的網址
我們在這里輸入百度的網址,https://www.baidu.com/,輸入之后點擊檢測
如何利用百度查看網站的Robots協議
可以看到下面的文本框出現了很多的腳本語言,在這里我們詳細解釋下他們的意思
如何利用百度查看網站的Robots協議
User-agent: Baiduspider(描述了搜索爬蟲的名稱,這里為Baiduspider,代表設定的規則是對百度爬蟲是有效的,如果有很多條的User-agent:,就會有多個爬蟲會受到限制)
Disallow: /baidu(指定了不允許抓取的目錄,如果只為/,則表示不允許抓取所有頁面)
注意:其他的測驗鏈接可能還會有 Allow
Allow: /s?(用來排除某些限制,一般是和Disallow一起使用,不會單獨使用)
方法二:
瀏覽器上直接輸入:https://ziyuan.baidu.com/robots/index
也可以進入
如何利用百度查看網站的Robots協議
方法三:
在搜索引擎(https://www.baidu.com/)上,直接搜索百度資源
如何利用百度查看網站的Robots協議
進入百度資源之后 --> 網站支持 --> 最右邊的Robots
如何利用百度查看網站的Robots協議
進入Robots檔案檢測頁面
2.注意事項
Robots協議是在進行搜索爬蟲時會用到的協議,需要根據其中定義的規范來爬取,所以進行搜索爬蟲時一定要先了解,再使用
專案場景
X老師上課講了Robots協議,小寧同學卻上課打了瞌睡,趕緊來教教小寧Robots協議是什么吧,
<html lang="en">
<head>
<meta charset="UTF-8">
<title>robots</title>
</head>
<body>
<h1></h1>
<!--flag is not here-->
</body>
</html>
解題方法
訪問網頁顯示為空白,嘗試查詢robots協議即/…題目地址…/robots.txt:
User-agent: *
Disallow:
Disallow: f1ag_1s_h3re.php
繼續訪問/…題目地址…/f1ag_1s_h3re.php,得到flag:cyberpeace{a80e5bcf6423bc3fe5707a10c2676c3b},
總結
robots協議作為一個行業內國際公認、并被世界絕大多數搜索引擎服務商遵守的技術協議,它在維護網路開放性的前提下,維護了資訊提供者的領地,這種動態平衡是互聯網、網路搜索引擎行業健康有序發展的有力保障,互聯網企業只有遵守這一協議,才能保證網站及用戶的隱私資料不被侵犯,它就像一個鐘擺,讓互聯網上的搜索與被搜索和諧相處,有專家表示,robots協議是維護互聯網世界隱私安全的重要規則,如果這種規則被破壞,對整個行業可能就是滅頂之災,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/239176.html
標籤:其他
上一篇:多執行緒---執行緒死鎖
