<meta name="robots">
name 屬性的 robots 值,對於 <meta> 元素(通常稱為“robots 標籤”),用於定義網頁 爬蟲 應遵循的抓取和索引行為。如果指定了該屬性,您將使用 <meta> 元素的 content 屬性,以逗號分隔的列表形式定義一條或多條規則,來指示爬蟲應如何操作。
例如,要提示爬蟲將頁面從其搜尋索引中排除,可以使用 noindex 值
<meta name="robots" content="noindex" />
注意:只有合作性的機器人(cooperative robots)才會遵守這些規則。爬蟲仍然需要訪問該資源才能讀取標頭和 meta 元素(請參閱 X-Robots-Tag:與 robots.txt 的互動)。如果您想防止爬蟲消耗頻寬,使用限制性的 robots.txt 檔案比索引規則更有效,因為它會完全阻止抓取資源。
用法說明
<meta name="robots"> 元素可以包含以下附加屬性
content-
必須定義
content屬性,其值會為合作性的搜尋引擎機器人設定索引和抓取行為。接受以下一個或多個關鍵字作為逗號分隔的列表index-
允許機器人索引該頁面。這是預設行為。所有主流爬蟲都使用此設定。
noindex-
請求機器人不要索引該頁面。所有主流爬蟲都使用此設定。
follow-
允許機器人跟蹤頁面上的連結。這是預設行為。所有主流爬蟲都使用此設定。
nofollow-
請求機器人不要跟蹤頁面上的連結。所有主流爬蟲都使用此設定。
all-
等同於
index, follow。由 Google 使用。 none-
等同於
noindex, nofollow。由 Google 使用。 noarchivenosnippetnoimageindex-
請求該頁面不作為已索引圖片的引用頁面出現。由 Google 使用。
nocache-
noarchive的同義詞。由 Bing 使用。
描述
在設定 robots meta 值時,有幾點重要的考慮事項需要注意
- 只有合作性的機器人(cooperative robots)才會遵守這些規則。它們無法阻止惡意行為者(如電子郵件採集器)忽略這些指令。
- 如果在
<meta>標籤中定義,機器人仍然需要訪問頁面才能讀取這些規則。為了減少頻寬消耗,請考慮使用 robots.txt 檔案 代替。 <meta name="robots">標籤和robots.txt各自扮演不同的角色:robots.txt控制抓取,而robotsmeta 標籤則影響索引和其他行為。- 被
robots.txt阻止的頁面,如果從其他來源連結,仍可能被索引。 noindex指令只有在機器人重新訪問頁面後才會生效,因此請確保robots.txt不會阻止其重新訪問。- 某些值,例如
index與noindex或follow與nofollow,是互斥的。當使用衝突的值時,行為是未定義的。 - Google、Yahoo 和 Bing 等機器人也支援 HTTP 標頭
X-Robots-Tag中的這些指令,這對於 PDF 或影像等非 HTML 內容很有用。
示例
使用 robots 關鍵字
以下示例使用 nofollow 來請求爬蟲不要跟蹤頁面上的連結,並使用 noindex 來請求將頁面從索引中排除
<meta name="robots" content="nofollow, noindex" />
規範
雖然它不是任何規範的一部分,但它是與搜尋引擎機器人、網頁爬蟲和類似使用者代理進行通訊的一種事實上的標準方法。
瀏覽器相容性
此功能是供爬蟲遵守的,因此“瀏覽器”相容性不適用。
另見
X-Robots-TagHTTP 標頭- robots.txt 配置指南
- robots.txt 詞彙表條目
- 搜尋引擎詞彙表條目
- RFC 9309:Robots 排除協議
- WHATWG Wiki MetaExtensions 頁面
- 在 developers.google.com 上使用 robots meta 標籤