検索エンジンは、インターネット上のリンクを辿りながら、ウェブページの情報を集めてデータベース化し、検索結果を表示させます。
このウェブページ情報を集めるときに、活躍しているのが検索エンジンロボット。
アクセスログを見て見ますと、UserAgentにgooglebot、msnbotなどがありますが、これらはgoogleやMSNの検索エンジンロボットが、サイトのページを巡回しページ情報を取得していった足跡です。
(UserAgentとは、Httpヘッダー情報の中の、ウェブページへのリクエスト元情報です。通常は、ウェブページはブラウザでリクエストされるので、User Agentは、Internet Explorer 6などとなっています。)
通常ウェブサイトを公開すると、遅かれ早かれどこかからかリンクが張られ、そのうち検索エンジンロボットに、ページを取得されることになります。
ただ、例えば友人との連絡のみに使う掲示板などで、広く公にはしたくない場合など、検索エンジンにインデックスされたくない(検索エンジンに表示させたくない)場合があります。
この場合、robots.txtをサイトに設置することで、ロボットのリクエストを回避することができます。
方法はいたって簡単です。
robots.txtファイルを自分のウェブサイトのトップに置きます。
■robots.txtの設置場所
○ http://www.example.com/robots.txt
■設置場所のダメな例
× http://www.example.com/first/robots.txt
robots.txtの実際の中身は、以下のように記述します。
■サイト全体を全検索エンジンロボットから回避する場合
----------------------------------------------
User-agent: *
Disallow: /
----------------------------------------------
■/first フォルダ以下をGooglebotから回避する場合
----------------------------------------------
User-agent: Googlebot
Disallow: /first/
----------------------------------------------
こんな感じでやれば、簡単にロボット避けが実現できます。
(中には、robots.txtの記述を守らない行儀の悪いロボットもいるようですが、大概の大手検索ロボットはこれで大丈夫です。)
■この記事のトラックバックURL:
http://www.iguid.com/pcms333/mt-tb.cgi/2