xctf攻防世界—Web新手練習區robots單題思路

@邱邱邱自強

前言

隨著互聯網的發展，互聯網界的行為也越來越被重視，那么國際互聯網界通行的道德規范是什么呢？它就是Robots協議，

一、Robots協議是什么？

robots協議也叫robots.txt（統一小寫）是一種存放于網站根目錄下的ASCII編碼的文本檔案，

二、使用步驟

1.方法

方法一：

通過百度網址，進入百度搜索引擎頁面（https://www.baidu.com/）
如何利用百度查看網站的Robots協議

在搜索框里面隨便輸入你想搜索的資訊

如果出現這段文字：“由于該網站的robots.txt檔案存在限制指令（限制搜索引擎抓取），系統無法提供該頁面的內容描述 - 了解詳情”
如何利用百度查看網站的Robots協議

滑鼠移到了解詳情，左鍵單擊 --> 進入了解詳情頁面
如何利用百度查看網站的Robots協議

可以輸入你想要了解的網站的網址

我們在這里輸入百度的網址，https://www.baidu.com/，輸入之后點擊檢測
如何利用百度查看網站的Robots協議

可以看到下面的文本框出現了很多的腳本語言，在這里我們詳細解釋下他們的意思
如何利用百度查看網站的Robots協議

User-agent: Baiduspider（描述了搜索爬蟲的名稱，這里為Baiduspider，代表設定的規則是對百度爬蟲是有效的，如果有很多條的User-agent:，就會有多個爬蟲會受到限制）

Disallow: /baidu（指定了不允許抓取的目錄，如果只為/，則表示不允許抓取所有頁面）

注意：其他的測驗鏈接可能還會有 Allow

Allow: /s?（用來排除某些限制，一般是和Disallow一起使用，不會單獨使用）

方法二：

瀏覽器上直接輸入：https://ziyuan.baidu.com/robots/index

也可以進入
如何利用百度查看網站的Robots協議

方法三：

在搜索引擎（https://www.baidu.com/）上，直接搜索百度資源
如何利用百度查看網站的Robots協議

進入百度資源之后 -->  網站支持 --> 最右邊的Robots
如何利用百度查看網站的Robots協議

進入Robots檔案檢測頁面

2.注意事項

Robots協議是在進行搜索爬蟲時會用到的協議，需要根據其中定義的規范來爬取，所以進行搜索爬蟲時一定要先了解，再使用

專案場景

X老師上課講了Robots協議，小寧同學卻上課打了瞌睡，趕緊來教教小寧Robots協議是什么吧，

<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>robots</title>
</head>
<body>

<h1></h1>
<!--flag is not here-->


</body>
</html>

解題方法

訪問網頁顯示為空白，嘗試查詢robots協議即/…題目地址…/robots.txt：

User-agent: *
Disallow: 
Disallow: f1ag_1s_h3re.php

繼續訪問/…題目地址…/f1ag_1s_h3re.php，得到flag：cyberpeace{a80e5bcf6423bc3fe5707a10c2676c3b}，

總結

robots協議作為一個行業內國際公認、并被世界絕大多數搜索引擎服務商遵守的技術協議，它在維護網路開放性的前提下，維護了資訊提供者的領地，這種動態平衡是互聯網、網路搜索引擎行業健康有序發展的有力保障，互聯網企業只有遵守這一協議，才能保證網站及用戶的隱私資料不被侵犯，它就像一個鐘擺，讓互聯網上的搜索與被搜索和諧相處，有專家表示，robots協議是維護互聯網世界隱私安全的重要規則，如果這種規則被破壞，對整個行業可能就是滅頂之災，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/239176.html

標籤：其他

上一篇：多執行緒---執行緒死鎖

下一篇：Java之HTTP網路編程（上篇：TCP/SSL網頁下載）