2019.01.22 2021.11.09
検索エンジンのロボットの動きやアクセスを制限させるためによく活用されるのが、
robots(ロボッツ)metaタグとrobots.txtがあります。
4月に行われたGoogleDanceTokyo2018でも話題になっていました。
https://webmaster-ja.googleblog.com/2018/02/google-dance-tokyo-2018.html
そこで今回は意外と間違えやすいこのrobotsmetaタグとrobots.txtについて解説していきます。
目次
robots(ロボッツ)metaタグ
robotsmetaタグの書き方にはいくつかの種類があります。
- index,noindex
- follow,nofollow
- noarchive
- noodp,noydir
それぞれの使い方は以下になります。
index,noindex
index,noindexは検索エンジンにページをインデックスさせるかさせないかを指定する記述になります。
<meta name=”robots” content=”index”>
<meta name=”robots” content=”noindex”>
indexはページをインデックスしても問題ないという記述、
noindexはページをインデックスさせない記述となります。
※indexに関しては記述していない状態でも同様の意味として捉えられます。
follow,nofollow
follow,nofollowはページ内のリンクを全て評価の対象とさせるかさせないかをクローラーに指示することができます。
<meta name=”robots” content=”follow”>
<meta name=”robots” content=”nofollow”>
followはページ内のリンクを全て評価対象にして問題ないという記述、
nofollowはページ内のリンクを全て評価対象にしないという記述になります。
※followに関しては記述していない状態でも同様の意味として捉えられます。
noarchive
noarchiveはページのキャッシュを拒否することができます。
<meta name=”robots” content=”noarchive”>
noodp,noydir
Googleであれば「Dmoz」、Yahoo!であれば「ヤフーカテゴリー」といった提携ディレクトリ登録サービスから、検索結果画面の説明文に文章を引用してくることがあります。それを拒否するための記述です。
※それぞれ今はサイトげ閉鎖されてしまっていますので、記述の必要はないようです。
ちなみにですがrobotsmetaタグは全て一つにまとめて記述することも可能です。
例えば、
<meta name=”robots” content=”noindex,nofollow,noarchive”>
このような記述も可能です。
robots.txt
robots.txtとは検索エンジンのクローラーのWEBページへのアクセスを制限するためのファイルになります。
このファイルへの記述によって検索エンジンに認識させる必要のないページ(価値のないページやシステムによって自動的に吐き出されてしまうページなど)を検索エンジンが認識しないようにできます。
ただしこの記述に強制力はないため、制限したとしてもインデックスしてしまう可能性がありますので注意が必要です。
robots.txtの書き方
robots.txtの一般的な記述方法は以下になります。
User-agent: *
Allow: /
sitemap:https://example.com/sitemap.xml
User-agentに関してはユーザーエージェントを指定する記述になります。
例えばGooglebotのみを指定したければ、User-agent:Googlebotと、
画像用のGooglebotであれば、User-agent:Googlebot-Image、
のように記述します。
またAllowについてはクロール許可の記述になります。
クローリングをブロックしたい場合はDisallowを記述します。例えばexample.comにおいて/programというディレクトリの配下をブロックしたい場合は以下のような記述になります。
Disallow:/program/
sitemapの記述に関しては設置しているsitemap.xmlのURLを記述しましょう。
robots.txtにおける注意点
注意点は以下になります。
- 設置箇所はルートディレクトリ
- robots.txtは絶対的ではない
- ユーザーが閲覧可能である
- インデックスされているページをインデックス除外するためには使えない
よくある間違い
上記の注意点にあげた通り、
robots.txtをインデックスされているページをインデックス除外するために活用するのはNGということをご注意いただければと思います。
この内容がGoogleDanceTokyoで語られていた内容になります。
https://twitter.com/chomado/status/981055240412676096/photo/1
その際の画像がこちらに上がっています。
簡単に要約しますと、
インデックスされたページをインデックス除外する場合、通常はrobotsmetaタグにnoindexを記述し、認識されるのを待つことになります。
ここでよくある間違いが、「robots.txtでDisallowを設定する」です。
robots.txtでクロール除外してしまうと、ページの変更を認識することができず、せっかく加えたnoindexの記述も検索エンジンに認識させることができなくなります。
よってインデックス除外がなされなくなるということになります。
ですのでここでお伝えしたい最も重要なポイントは、「インデックス除外したい場合robotsmetaタグとrobots.txtは併用しないようにしましょう。」ということです!
robotsmetaタグにてnoindexを指定し、インデックスから除外されたのちにクロール除外のためrobots.txtを設定する形であれば問題ないでしょう。
ぜひこの点をご留意いただければと思います。
BCJ管理人
ブルースクレイ・ジャパン(株)サイトの管理人です。 担当業務は全ファネル領域におけるサイト改善コンサルです。
BCJメールマガジンのご登録
最新のセミナー情報やお役立ち情報をメールにてお届け致します!
-
【セミナーレポート】BtoB広告成功へのルートマップ-第2部
2023.12.25
View more
-
【セミナーレポート】BtoB広告成功へのルートマップ-第1部
2023.12.25
View more
-
【2023年最新】SEOとは?基本的なSEO対策とやり方をわかりやすく解説!
2023.10.27
View more
-
【HTML】の改行方法!brタグとpタグ、CSSを使った方法を紹介
2023.10.03
View more
-
【Amazon広告】種類やメリット、課金方式などをわかりやすく解説
2023.10.03
View more
-
数字で分かる!縦型動画広告のメリットと作成ポイントまで徹底解説
2023.10.02
View more