意外と間違えている?robotsタグとrobots.txtの違い

意外と間違えている?robotsタグとrobots.txt

 

検索エンジンのロボットの動きやアクセスを制限させるためによく活用されるのが、
robots(ロボッツ)metaタグrobots.txtがあります。

4月に行われたGoogleDanceTokyo2018でも話題になっていました。

https://webmaster-ja.googleblog.com/2018/02/google-dance-tokyo-2018.html

そこで今回は意外と間違えやすいこのrobotsmetaタグとrobots.txtについて解説していきます。

robots(ロボッツ)metaタグ

robotsmetaタグの書き方にはいくつかの種類があります。

  • index,noindex
  • follow,nofollow
  • noarchive
  • noodp,noydir

それぞれの使い方は以下になります。

index,noindex

index,noindexは検索エンジンにページをインデックスさせるかさせないかを指定する記述になります。

<meta name=”robots” content=”index”>

<meta name=”robots” content=”noindex”>

indexはページをインデックスしても問題ないという記述、

noindexはページをインデックスさせない記述となります。

※indexに関しては記述していない状態でも同様の意味として捉えられます。

follow,nofollow

follow,nofollowはページ内のリンクを全て評価の対象とさせるかさせないかをクローラーに指示することができます。

<meta name=”robots” content=”follow”>

<meta name=”robots” content=”nofollow”>

followはページ内のリンクを全て評価対象にして問題ないという記述、

nofollowはページ内のリンクを全て評価対象にしないという記述になります。

※followに関しては記述していない状態でも同様の意味として捉えられます。

noarchive

noarchiveはページのキャッシュを拒否することができます。

<meta name=”robots” content=”noarchive”>

noodp,noydir

Googleであれば「Dmoz」、Yahoo!であれば「ヤフーカテゴリー」といった提携ディレクトリ登録サービスから、検索結果画面の説明文に文章を引用してくることがあります。それを拒否するための記述です。

※それぞれ今はサイトげ閉鎖されてしまっていますので、記述の必要はないようです。

 

ちなみにですがrobotsmetaタグは全て一つにまとめて記述することも可能です。

例えば、

<meta name=”robots” content=”noindex,nofollow,noarchive”>

このような記述も可能です。

robots.txt

 

robots.txtとは検索エンジンのクローラーのWEBページへのアクセスを制限するためのファイルになります。

このファイルへの記述によって検索エンジンに認識させる必要のないページ(価値のないページやシステムによって自動的に吐き出されてしまうページなど)を検索エンジンが認識しないようにできます。

ただしこの記述に強制力はないため、制限したとしてもインデックスしてしまう可能性がありますので注意が必要です。

 

robots.txtの書き方

robots.txtの一般的な記述方法は以下になります。

User-agent: *

Allow: /

sitemap:https://example.com/sitemap.xml

User-agentに関してはユーザーエージェントを指定する記述になります。

例えばGooglebotのみを指定したければ、User-agent:Googlebotと、

画像用のGooglebotであれば、User-agent:Googlebot-Image、

のように記述します。

またAllowについてはクロール許可の記述になります。

クローリングをブロックしたい場合はDisallowを記述します。例えばexample.comにおいて/programというディレクトリの配下をブロックしたい場合は以下のような記述になります。

Disallow:/program/

sitemapの記述に関しては設置しているsitemap.xmlのURLを記述しましょう。

robots.txtにおける注意点

注意点は以下になります。

  • 設置箇所はルートディレクトリ
  • robots.txtは絶対的ではない
  • ユーザーが閲覧可能である
  • インデックスされているページをインデックス除外するためには使えない

よくある間違い

上記の注意点にあげた通り、

robots.txtをインデックスされているページをインデックス除外するために活用するのはNGということをご注意いただければと思います。

この内容がGoogleDanceTokyoで語られていた内容になります。

https://twitter.com/chomado/status/981055240412676096/photo/1

その際の画像がこちらに上がっています。

簡単に要約しますと、

インデックスされたページをインデックス除外する場合、通常はrobotsmetaタグにnoindexを記述し、認識されるのを待つことになります。

ここでよくある間違いが、「robots.txtでDisallowを設定する」です。

robots.txtでクロール除外してしまうと、ページの変更を認識することができず、せっかく加えたnoindexの記述も検索エンジンに認識させることができなくなります。

よってインデックス除外がなされなくなるということになります。

ですのでここでお伝えしたい最も重要なポイントは、「インデックス除外したい場合robotsmetaタグとrobots.txtは併用しないようにしましょう。」ということです!

robotsmetaタグにてnoindexを指定し、インデックスから除外されたのちにクロール除外のためrobots.txtを設定する形であれば問題ないでしょう。

 

ぜひこの点をご留意いただければと思います。

 

関連記事

カテゴリー

著者

最新の記事

無料分析診断、お見積、お問い合わせ

Webマーケティングでお困りでしたら、ぜひお気軽にご相談ください。
最短1営業日以内にご連絡いたします。

お問い合わせ

TEL:03-5468-3860

受付時間10:00-18:00(土日祝休)