fbpx

阻止搜尋引擎禁止索引的幾個方法

有時候有一些網頁不希望被搜尋引擎與爬衝進行索引,像是後台管理入口、訂單資訊等等不希望被索引的頁面。其實可以透過 HTML 中繼標籤來告知搜尋引擎爬蟲不要進行索引。當然如果可以,直接擋下權限是必要的手段,如果有一些不方便或業務邏輯上無法透過登入權限進行阻擋,那麼可以參考以下幾種方法:

第一招、透過 robots.txt 標記

可以在網頁根目錄底下加上 robots.txt 檔案,裡面包含以下設定:

disallow: /admin

如上述表示 /admin 目錄底下的資料都不進行索引,詳細的 robots.txt 規範可以參考這份文件

第二招、透過 HTML 中繼標籤

如要防止「大部分的搜尋引擎網路檢索器」建立網站網頁的索引,也可以在網頁的 <head> 區段放置下列中繼標記,簡單的範例如下:

<html>
<head>
  <meta name="robots" content="noindex, nofollow">
</head>
...

Google 爬蟲自己有專用的 Meta Tag,如下:

<html>
<head>
  <meta name="googlebot" content="noindex, nofollow">
</head>
...

第三招、加入禁止索引的 HTTP Response Header

這一招就需要後台程式支援了,也可以透過 HTTP Server 直接送出這個 Header。如下:

X-Robots-Tag: noindex

如果是 PHP 就用以下方法送出 Header:

<?php

header('X-Robots-Tag', 'noindex');

其實以上這些方法都是要求搜尋引擎與爬蟲不要索引這個頁面,這只是「要求」,別以為這樣就無敵了!然而會不會遵守又是另一件事了,對於敏感的資料比較保險得做法,還是要透過認證的方式阻擋才是正確的手段。SEO 教學下次見!