質問

検索されたくない

私のサイトを検索されたくないので、検索してもヒットしないようにしたいのですが、どうしたら良いでしょう。

回答

完璧な対策はありません。検索されたくなければ、最終的にはアップロードしないことしかありません。

以下に、ある程度検索されなくする方法をご紹介します。

HTMLヘッダを使用する

google などお行儀のいいロボットには、ひとまず、HTMLヘッダ( head 要素)に以下の一行を追加。

<meta name="Robots" content="NOINDEX,NOFOLLOW,NOCACHE">

既に登録されている場合、次回のロボット巡回時までは無効です。
なお、NOINDEX,NOFOLLOW,NOCACHE部分は、小文字にすると無視していくロボットがありますので、必ず大文字で書くようにしましょう。

robots.txtを使用する

robots.txtというものを編集する権限を持っている人は、それを編集することでロボットを制御することが出来ます。robots.txtを編集するには、ルートディレクトリへのアクセスを許可されていることが前提となります

例えば以下のようにすると、そのドメイン下にあるすべてのフォルダ・ファイルへのアクセスを禁止します。

User-agent: *
Disallow: /

以下のようにすると、トップディレクトリ下のディレクトリ'foo'、'baa'、'ext/pref'へのアクセスを禁止します。

User-agent: *
Disallow: /foo/
Disallow: /baa/
Disallow: /ext/pref/

以下のようにすると、トップディレクトリ下のディレクトリ'foo'へのアクセスを禁止しますが、その中にある'special'ディレクトリへのアクセスは許可します。*1

User-agent: *
Disallow: /foo/
Allow: /foo/special/

以下のようにすると、トップディレクトリ下の'hidden.html'ファイルへのアクセスを禁止します。

User-agent: *
Disallow: /hidden.html

以下のようにすると、'hoge'というロボットからトップディレクトリ下にあるすべてのフォルダ・ファイルへのアクセスを禁止します。

User-agent: hoge
Disallow: /

ロボットは以下のようにして列挙出来ます。

User-agent: hoge
Disallow: /

User-agent: fuga
Disallow: /

なお、たまに複数形の's'の抜けたrobot.txtにアクセスするロボットがありますので、両方とも置いておいた方が無難でしょう。

.htaccessや.htpasswdを使用する

これら二つのファイルを操作することで、特定のホストからのアクセスのみを許可したり、パスワードで鍵を掛けたりすることが出来ます。

詳細はこちら。
ミケネコの htaccess リファレンス

以上の事柄を解説しているサイト

No Need Robot Club ロボット型検索エンジンへの対応方法
横長固定だったり中央寄せだったりですごい読みづらいですが、そこは我慢。
A Standard for Robot Exclusion
robots.txtの標準仕様。非公式。英文。

関連記事

検索してもヒットしない

編集者

作成 むむりく 2004/03/19
修正 ばあど 2004/03/19


*1 Allowフィールドは解釈されない可能性が十分あります

リロード   新規 編集 凍結解除 差分 添付 複製 改名   トップ 一覧 検索 最終更新 バックアップ   ヘルプ   最終更新のRSS
Last-modified: 2006-07-25 (火) 12:41:10 (4775d)