<meta name="robots">

name 屬性的 robots 值,對於 <meta> 元素(通常稱為“robots 標籤”),用於定義網頁 爬蟲 應遵循的抓取和索引行為。如果指定了該屬性,您將使用 <meta> 元素的 content 屬性,以逗號分隔的列表形式定義一條或多條規則,來指示爬蟲應如何操作。

例如,要提示爬蟲將頁面從其搜尋索引中排除,可以使用 noindex

html
<meta name="robots" content="noindex" />

注意:只有合作性的機器人(cooperative robots)才會遵守這些規則。爬蟲仍然需要訪問該資源才能讀取標頭和 meta 元素(請參閱 X-Robots-Tag:與 robots.txt 的互動)。如果您想防止爬蟲消耗頻寬,使用限制性的 robots.txt 檔案比索引規則更有效,因為它會完全阻止抓取資源。

用法說明

<meta name="robots"> 元素可以包含以下附加屬性

content

必須定義 content 屬性,其值會為合作性的搜尋引擎機器人設定索引和抓取行為。接受以下一個或多個關鍵字作為逗號分隔的列表

index

允許機器人索引該頁面。這是預設行為。所有主流爬蟲都使用此設定。

noindex

請求機器人不要索引該頁面。所有主流爬蟲都使用此設定。

follow

允許機器人跟蹤頁面上的連結。這是預設行為。所有主流爬蟲都使用此設定。

nofollow

請求機器人不要跟蹤頁面上的連結。所有主流爬蟲都使用此設定。

all

等同於 index, follow。由 Google 使用。

none

等同於 noindex, nofollow。由 Google 使用。

noarchive

請求搜尋引擎不要快取頁面內容。由 GoogleYahooBing 使用。

nosnippet

阻止在搜尋引擎結果中顯示頁面的任何描述。由 GoogleBing 使用。

noimageindex

請求該頁面不作為已索引圖片的引用頁面出現。由 Google 使用。

nocache

noarchive 的同義詞。由 Bing 使用。

描述

在設定 robots meta 值時,有幾點重要的考慮事項需要注意

  • 只有合作性的機器人(cooperative robots)才會遵守這些規則。它們無法阻止惡意行為者(如電子郵件採集器)忽略這些指令。
  • 如果在 <meta> 標籤中定義,機器人仍然需要訪問頁面才能讀取這些規則。為了減少頻寬消耗,請考慮使用 robots.txt 檔案 代替。
  • <meta name="robots"> 標籤和 robots.txt 各自扮演不同的角色:robots.txt 控制抓取,而 robots meta 標籤則影響索引和其他行為。
  • robots.txt 阻止的頁面,如果從其他來源連結,仍可能被索引。
  • noindex 指令只有在機器人重新訪問頁面後才會生效,因此請確保 robots.txt 不會阻止其重新訪問。
  • 某些值,例如 indexnoindexfollownofollow,是互斥的。當使用衝突的值時,行為是未定義的。
  • Google、Yahoo 和 Bing 等機器人也支援 HTTP 標頭 X-Robots-Tag 中的這些指令,這對於 PDF 或影像等非 HTML 內容很有用。

示例

使用 robots 關鍵字

以下示例使用 nofollow 來請求爬蟲不要跟蹤頁面上的連結,並使用 noindex 來請求將頁面從索引中排除

html
<meta name="robots" content="nofollow, noindex" />

規範

雖然它不是任何規範的一部分,但它是與搜尋引擎機器人、網頁爬蟲和類似使用者代理進行通訊的一種事實上的標準方法。

瀏覽器相容性

此功能是供爬蟲遵守的,因此“瀏覽器”相容性不適用。

另見