問題
許多因素會增加您網站的負載;這包括網路爬蟲。此外,如果允許抓取整個網站,網路爬蟲可能會用對被搜尋無益的資源汙染搜尋結果。
解決方案
使用 robots.txt 減輕網站負載並阻止不適宜的內容出現在搜尋結果中。使用此檔案是可選的,並且只能用於這些目的。它不應被用作阻止洩露私人資訊或隱藏網站部分內容的方法。
雖然使用此檔案可以阻止頁面出現在搜尋引擎結果中,但它並不能保護網站免受攻擊者的侵害。恰恰相反,它可能會無意中幫助他們:robots.txt 是公開可訪問的,透過將您的敏感頁面路徑新增到其中,您正在向潛在的攻擊者展示它們的 [sic] 位置。
同時也要注意,一些機器人,例如惡意軟體機器人和電子郵件地址抓取器,會忽略您的 robots.txt 檔案。
示例
阻止所有搜尋引擎抓取網站
http
User-agent: *
Disallow: /
隱藏特定目錄(不推薦)
http
User-agent: *
Disallow: /secret/admin-interface
另見
X-Robots-TagHTTP 標頭<meta name="robots">HTML 元素(“robots 標籤”)- RFC 9309:Robots 排除協議
robotstxt.org上的關於 /robots.txt