robots.txt 配置

robots.txt 是一個文字檔案,它透過指示機器人(例如搜尋引擎爬蟲)不要抓取網站上的某些路徑來告訴它們如何行為。它放置在網站的根目錄下。

問題

許多因素會增加您網站的負載;這包括網路爬蟲。此外,如果允許抓取整個網站,網路爬蟲可能會用對被搜尋無益的資源汙染搜尋結果。

解決方案

使用 robots.txt 減輕網站負載並阻止不適宜的內容出現在搜尋結果中。使用此檔案是可選的,並且只能用於這些目的。它不應被用作阻止洩露私人資訊或隱藏網站部分內容的方法。

雖然使用此檔案可以阻止頁面出現在搜尋引擎結果中,但它並不能保護網站免受攻擊者的侵害。恰恰相反,它可能會無意中幫助他們:robots.txt 是公開可訪問的,透過將您的敏感頁面路徑新增到其中,您正在向潛在的攻擊者展示它們的 [sic] 位置。

同時也要注意,一些機器人,例如惡意軟體機器人和電子郵件地址抓取器,會忽略您的 robots.txt 檔案。

示例

阻止所有搜尋引擎抓取網站

http
User-agent: *
Disallow: /

隱藏特定目錄(不推薦)

http
User-agent: *
Disallow: /secret/admin-interface

另見