SEO対策と制御との関わり
ユーザーへアピールしたい重要コンテンツページがインデックスされることは歓迎されるのですが、特にEC・ポータルという大規模なサイトにおいては、自動生成ページ等……、中には表示される必要性が無いようなページもあるのではないかと思います。ここで、とあるサイトにおけるクロール統計情報の例を示します。
■クロール統計情報の例
このように、クロール数において日々波があるのですが、実は各々のサイトごとで異なっており、サイトの重要度をGoogleが判断した上で、クロールするページ数を決定しているようです(クロール・バジェットと言われています)。
また、インデックス数においても、数が多いほどSEOにおいても有利な傾向がありますが、同時に、その質・中身も問われています。
つまり、数だけでの判断ではなく、中身に問題があったり等、例えば、無関係な情報や重複コンテンツのようなものが多いと、全体としての質が損なわれる為、如何に良質なコンテンツのインデックス数を増やすかも重要な要因のひとつとなっています。
まとめると、クロール数を上げることも勿論必要ですが、その限られたクロール数(資源)の中で、検索エンジンに対し如何に重要コンテンツを巡回してもらい、認識してもらえるかの改善も、重要なSEO対策のひとつとなってきます。
今回は、その為に必要な、サイト内の制御方法について解説していきます。
- robots.txtについて
- robots metaタグについて
※他、.htaccessによる制御方法もあります
robots.txt
robots.txtファイルというものをサーバー側に設置し、対象ページのアクセス制限等、クローラーの巡回制御を行います。ただ、アクセス拒否の際、仕組みとしては……アクセス不可能なことから結果としてインデックスすることができないということになります。
robots.txtの注意点
- インデックスはされなくとも、検索結果にURLのみ表示される場合があります
- 他のサイトからリンクされていたり、URLが記載されている場合は、インデックスされやすいという危険性もあります→後ほどご説明する、meta要素内に記述しアクセスブロックする方が無難です。
- Googleのロボットは概ね従いますが、特に他の検索エンジンにおいては、必ずしも強制力があるというわけではありません。どちらかというと“依頼”に近いかもしれません。その為、機密情報の保護には、パスワードの使用をおすすめします。
設置方法(アクセス禁止の例)
- robots.txtは、サイトのトップ階層にあたるディレクトリにアップロードします
×:http://7eyese.com/about/robots.txt
- 書き方
Disallow: /a/
※上記のような記述の場合、「a」フォルダの全てのファイルにアクセスしないようにという指示になります。
ここで、ディレクトリ名の大文字や小文字等、指定に間違いがないかも確認しましょう(ここで仮に間違っていると、別のものとして認識されます)。