robots.txtの用途
アクセス拒否にて活用するうえで、以下のようなページが挙げられます。- 会員向けの掲示板
- ユーザーにとって価値のないページ
- 開発者用のテストページ(←できれば検証後削除)
※他にも多くあると思いますが、このように一般ユーザーには見せたくないページに対し、利用していきます。
robots metaタグ
ページ単位での制御が可能です。これをhead内で、制御の内容に沿って記述します。様々な内容のものがありますが、例えば検索結果に表示させないように……や、リンクを辿ることへの禁止等々……その代表的なものがこちらです。- <meta name="robots" content="noindex,nofollow" />
robots metaタグの注意点
1.robots.txtのブロックと併用しない→robots.txtのDisallow:で指定したページ内にて、<meta name=”robots” content=”noindex,nofollow” />を記述しても、アクセスできずに読み込めないことから、併用しても機能しません。
2.記述を2重に書かない→あまり無いケースかもしれませんが、このような場合、最初に記述したものに順います。
先(禁止):<meta name="robots" content="noindex" />
後(許可):<meta name="robots" content="index" />
3.通常の閲覧してほしいサイトならば、逆に記述不用です→こちらのソースコードは見かけた方も多いかもしれません。ちなみに、下の記述はどちらも全て許可の意味です。
- <meta name="robots" content="index, follow" />
- <meta name="robots" content="all" />
※実は、デフォルトで“許可された状態”なので、記述する必要は無いのです。尚且つ、ファイルサイズが(ここでは少しですが……)大きくなったり、headタグ内を不要なものが占有するので、SEO対策にこだわっているのならば、削除すべきです。
最後に、今回のお話は大規模サイトに限ったものですので、通常のコーポレートサイト等においては、使用する機会はあまり無いのかもしれません。
ただ、ページ数が500~数千と膨大に膨れ上がってきたときには、どうしても向き合っていかなければならない問題となるのではないでしょうか……。