クロールされたくないフォルダやページをrobots.txtでブロックする方法!

公開日:2014年8月6日
最終更新日: 2015年2月25日

google_robot_photo_01

こんにちは!

当サイトには「Google」のクローラーにクロールされて欲しくないフォルダが存在します。別に見られたらマズイ情報が掲載されている訳ではなく、テストやデモページなどで使用したフォルダやページになるのですが、元となっている記事から遷移されることに意味があって、インデックスされている検索結果から遷移される意味がありません。出来れば検索一覧に表示されないようにしたいです。

そこで使用するのが「robots.txt」と呼ばれるファイルです。
なかなか聞くことのない言葉ですが、とても重要なファイルになりますので、今回は「robots.txt」について記事にしたいと思います。

目次!

1.「robots.txt」とは?
2.「robots.txt」の記述方法!
3.「robots.txt」を作成!

「robots.txt」とは?

「robots.txt」とは何かというと、「Google」のクローラーを制御することができるテキストファイルです。「robots.txt」に記述されている内容でフォルダやページなどをブロックすることができます。

以下は参考サイトになります。より正確な情報はこちらより、ご確認ください。

【Googleウェブマスターツール】
robots.txt ファイルについて学ぶ

ただし「robots.txt」は絶対ではありません。他のサイトから被リンクを受けている時などは、ブロックされない可能性もありますので、ご注意ください。

どうしてもインデックスさせたくない場合は、「meta」タグを使用して以下のように記述してください。

<meta name="robots" content="noindex">

「meta」タグを利用する時の注意点ですが、「robots.txt」の「Disallow」と上記の「meta」の記述は併用できません。理由としては「robots.txt」の「Disallow」にブロックされるフォルダが記述されていれば、「meta」を読み取ることができないからです。

「robots.txt」の記述方法!

「robots.txt」にも制御したい内容によって、色んな記述方法があります。

クローラーの拒否!

全てのクローラーを拒否する場合の記述!

User-agent: * 
Disallow: /

特定のフォルダやページを拒否する場合の記述!

「test」フォルダと「test.html」をブロックする時の記述です。

User-agent: * 
Disallow: /test/
Disallow: /test.html

クローラーの許可!

サイト全体をクロールして欲しい場合の記述!

User-agent: * 
Allow: /

ワイルドカードとパターン一致!

PDFファイルだけをブロックする!

Disallow: /*.pdf$

「robots.txt」を作成!

実際に「robots.txt」を作成してみましょう。

今回は「jscrollpaneを使用しスクロールバーをちょっとだけカッコよくする!」でデモページとして作成したフォルダをブロックしてみます。

検索結果で確認すると以下のように表示されています。

google_robot_photo_02

検索結果の「Scrollサンプル」をクリックすると以下のようにデモの内容だけが表示されます。

google_robot_photo_03

上記のように表示されることに意味はありませんので、ブロックされるようにします。

「robots.txt」の作成!

テキストエディタを使用して「robots」という名前の「robots.txt」を作成してください。私は「TeraPad」を使用して作成しました。

google_robot_photo_04

「http://wp-technique.com/scroll/」フォルダをブロックしたいので、ファイルに記述するコードは、以下のようになります。

User-agent: * 
Disallow: /scroll/

作成したファイルをFTPソフトを使用してアップロードするのですが、いきなりアップロードするのは危険なので、「Googleウェブマスターツール」でテストをしてからにしたいと思います。以下のURLをクリックしてください。

【Googleウェブマスターツール】
robots.txt をテストする

「robots.txt テスター」の画面が開きます。この画面でテストすることができます。

google_robot_photo_05

実際にテストしてみます。コード入力欄に「robots.txt」のコードと、一番下のURLの部分にブロックするフォルダを入力し「Googlebot」を選択してから「テスト」をクリックしてください。

google_robot_photo_06

確認すると「ブロック済」と表示されています。問題なく動作しているようです。

google_robot_photo_07

「robots.txt」をFTPソフトを使用して、ドメインのrootディレクトリ(一番トップ)にアップロードしてください。

google_robot_photo_08

以上で「robots.txt」の設定が完了です。
「robots.txt」の設定が反映されるまで、少し時間が掛かります。

最後に!

今後、SEO対策を行う過程で「robots.txt」を作成することもあるかもしれませんので、チェックしておいてください。

設定は簡単だったと思いますが注意して頂きたいのは、「robots.txt」は非常に重要なファイルです。設定を間違えてサイトのインデックスが削除されることも有り得ますので、設定時は十分にご注意ください。

以上「クロールされたくないフォルダやページをrobots.txtでブロックする方法!」でした!

それではまた。

公開日:2014/08/06
最終更新日: 2015年2月25日
カテゴリー:google

関連記事

新着記事

コメント/トラックバック

トラックバック用URL:

この投稿のコメント・トラックバックRSS




管理人にのみ公開されます

正しい数値を入力して下さい *
Time limit is exhausted. Please reload CAPTCHA.

最新の記事

カテゴリー

過去の記事

プロフィール

  • 著者:Masaki Yamashita

    大阪でWEB制作の仕事をしています。
    WEBデザイン、コーディング、WordPress・EC-CUBEの設置やカスタマイズなど何でもやっています。

follow us in feedly