阻止搜尋引擎禁止索引的幾個方法

6 年前

有時候有一些網頁不希望被搜尋引擎與爬衝進行索引，像是後台管理入口、訂單資訊等等不希望被索引的頁面。其實可以透過 HTML 中繼標籤來告知搜尋引擎爬蟲不要進行索引。當然如果可以，直接擋下權限是必要的手段，如果有一些不方便或業務邏輯上無法透過登入權限進行阻擋，那麼可以參考以下幾種方法：

第一招、透過 robots.txt 標記

可以在網頁根目錄底下加上 robots.txt 檔案，裡面包含以下設定：

disallow: /admin

如上述表示 /admin 目錄底下的資料都不進行索引，詳細的 robots.txt 規範可以參考這份文件。

如要防止「大部分的搜尋引擎網路檢索器」建立網站網頁的索引，也可以在網頁的 <head> 區段放置下列中繼標記，簡單的範例如下：

<html>
<head>
  <meta name="robots" content="noindex, nofollow">
</head>
...

Google 爬蟲自己有專用的 Meta Tag，如下：

<html>
<head>
  <meta name="googlebot" content="noindex, nofollow">
</head>
...

這一招就需要後台程式支援了，也可以透過 HTTP Server 直接送出這個 Header。如下：

X-Robots-Tag: noindex

如果是 PHP 就用以下方法送出 Header：

<?php

header('X-Robots-Tag', 'noindex');

其實以上這些方法都是要求搜尋引擎與爬蟲不要索引這個頁面，這只是「要求」，別以為這樣就無敵了！然而會不會遵守又是另一件事了，對於敏感的資料比較保險得做法，還是要透過認證的方式阻擋才是正確的手段。SEO 教學下次見！