クロールされたくないフォルダやページをrobots.txtでブロックする方法!

こんにちは!

当サイトには「Google」のクローラーにクロールされて欲しくないフォルダが存在します。別に見られたらマズイ情報が掲載されている訳ではなく、テストやデモページなどで使用したフォルダやページになるのですが、元となっている記事から遷移されることに意味があって、インデックスされている検索結果から遷移される意味がありません。出来れば検索一覧に表示されないようにしたいです。

そこで使用するのが「robots.txt」と呼ばれるファイルです。なかなか聞くことのない言葉ですが、とても重要なファイルになりますので、今回は「robots.txt」について記事にしたいと思います。

「robots.txt」とは?

「robots.txt」とは何かというと、「Google」のクローラーを制御することができるテキストファイルです。「robots.txt」に記述されている内容でフォルダやページなどをブロックすることができます。

↓以下は参考サイトになります。より正確な情報はこちらより、ご確認ください。

【Googleウェブマスターツール】
robots.txt ファイルについて学ぶ

ただし「robots.txt」は絶対ではありません。他のサイトから被リンクを受けている時などは、ブロックされない可能性もありますので、ご注意ください。

↓どうしてもインデックスさせたくない場合は、「meta」タグを使用して以下のように記述してください。

<meta name="robots" content="noindex">

「meta」タグを利用する時の注意点ですが、「robots.txt」の「Disallow」と上記の「meta」の記述は併用できません。理由としては「robots.txt」の「Disallow」にブロックされるフォルダが記述されていれば、「meta」を読み取ることができないからです。

「robots.txt」の記述方法!

「robots.txt」にも制御したい内容によって、色んな記述方法があります。

クローラーの拒否!

全てのクローラーを拒否する場合の記述!

User-agent: * 
Disallow: /

特定のフォルダやページを拒否する場合の記述!

↓「test」フォルダと「test.html」をブロックする時の記述です。

User-agent: * 
Disallow: /test/
Disallow: /test.html

クローラーの許可!

サイト全体をクロールして欲しい場合の記述!

User-agent: * 
Allow: /

ワイルドカードとパターン一致!

PDFファイルだけをブロックする!

Disallow: /*.pdf$

「robots.txt」を作成!

実際に「robots.txt」を作成してみましょう。

今回は「jscrollpaneを使用しスクロールバーをちょっとだけカッコよくする!」でデモページとして作成したフォルダをブロックしてみます。

↓検索結果で確認すると以下のように表示されています。

↓検索結果の「Scrollサンプル」をクリックすると以下のようにデモの内容だけが表示されます。

上記のように表示されることに意味はありませんので、ブロックされるようにします。

「robots.txt」の作成!

↓テキストエディタを使用して「robots」という名前の「robots.txt」を作成してください。私は「TeraPad」を使用して作成しました。

↓「http://wp-technique.com/scroll/」フォルダをブロックしたいので、ファイルに記述するコードは、以下のようになります。

User-agent: * 
Disallow: /scroll/

↓作成したファイルをFTPソフトを使用してアップロードするのですが、いきなりアップロードするのは危険なので、「Googleウェブマスターツール」でテストをしてからにしたいと思います。以下のURLをクリックしてください。

【Googleウェブマスターツール】
robots.txt をテストする

↓「robots.txt テスター」の画面が開きます。この画面でテストすることができます。

↓実際にテストしてみます。コード入力欄に「robots.txt」のコードと、一番下のURLの部分にブロックするフォルダを入力し「Googlebot」を選択してから「テスト」をクリックしてください。

↓確認すると「ブロック済」と表示されています。問題なく動作しているようです。

↓「robots.txt」をFTPソフトを使用して、ドメインのrootディレクトリ(一番トップ)にアップロードしてください。

以上で「robots.txt」の設定が完了です。

「robots.txt」の設定が反映されるまで、少し時間が掛かります。

最後に!

今後、SEO対策を行う過程で「robots.txt」を作成することもあるかもしれませんので、チェックしておいてください。

設定は簡単だったと思いますが注意して頂きたいのは、「robots.txt」は非常に重要なファイルです。設定を間違えてサイトのインデックスが削除されることも有り得ますので、設定時は十分にご注意ください。

以上「クロールされたくないフォルダやページをrobots.txtでブロックする方法!」でした!

それではまた。

コメント