Robots.txt:ウェブサイトの検索ランキングにどのように役立つ、または害を与えるか

開示: あなたのサポートはサイトの運営を維持するのに役立ちます!このページで推奨する一部のサービスについては、紹介料を稼ぎます.


robots.txtファイルは、ウェブサイトで使用される特別なツールであり、インターネットロボットにアクセスできる可能性のあるものとできないものを伝えます。.

たとえば、Googlebotがウェブサイトにアクセスする前に、robots.txtファイルを読み取り、アクセスできる場所とアクセスできない場所、収集できる情報などを確認します。もちろん、それは評判を重視する確立された会社を代表するためです。.

一部のインターネット詐欺師がScamBot5000を作成した場合、robots.txtファイルは読み取られない可能性があります—検索したくない場所を確認する場合を除きます.

なぜRobots.txtを使用するのか?

ロボットはrobots.txtファイルの内容を順守する必要がないため、時間の浪費のように思えるかもしれません。しかし、それは実際には非常に重要です。確かに、スパムボットがあなたのウェブサイトにやって来て、役に立たないコメントを投稿しますが、それは別のソリューションでは別の問題です。 robots.txtファイルは、検索エンジンとアーカイバーがサイトをナビゲートする方法を理解するのに役立ちます.

ほとんどの状況で、Webサイトはロボットがサイト全体をチェックアウトすることを望んでいます。しかしいつもではない。 2つの部分に分かれているサイトがあるとします。 1つのパートには、市場に出てくる新しいスマートフォンのそれぞれについての考えを世界に伝えるブログが含まれています。そして他の部分はあなたの新しい赤ちゃんの写真を持っています。赤ちゃんの写真を見ても大丈夫です。なぜなら、彼女は結局ボタンとしてかわいいからです。.

しかし、あなたが誰であるかさえ知らない人々がそれらに遭遇する可能性がある検索エンジンデータベースにそれらの写真が含まれるのは望ましくありません。または、たまたま、赤ちゃんの高解像度の写真が10,000枚以上あるため、サーバーに負荷をかけたくないだけかもしれません。.

理由に関係なく、robots.txtファイルを使用して検索エンジンに伝えることができます。スマートフォンの記事にインデックスを付けますが、赤ちゃんの写真はそのままにしておきます。.

Robots.txtのしくみ

その中のコマンドは、ロボット除外プロトコルと呼ばれます。それは1994年以来存在しており、公式に標準化されたことは一度もありません。しかし、とにかくそれはかなりうまくいく.

そこにはたくさんあります(これについては後で説明します)。ただし、ほとんどの場合、コマンドは2つしかありません。(1)コマンドが適用されるロボットを指示するコマンド。 (2)ロボットにできることとできないことをロボットに伝えるもの.

ユーザーエージェントコマンド

robots.txtファイルのすべてのセクションは、User-agentコマンドで始まります。これは次の形式です。

ユーザーエージェント:[ロボット名]

この場合、[robot-name]は、特定のロボット(Googlebotなど)またはすべてのロボットの名前で、アスタリスク記号で示されます。この後者のケースが最も一般的です。 User-agentに続くすべてのコマンドは、次のUser-agent行(ある場合)までそれを参照します。.

許可しない

robots.txtファイルで最も一般的なコマンドは、ロボットがWebサイトの別の場所に移動することを許可しないコマンドです。すべての行の形式は、ユーザーエージェントの形式と似ています。

禁止:[ファイルまたはディレクトリ名]

この場合、[ファイルまたはディレクトリ名]はWebサイトのルートを基準にして指定されます。たとえば、共有サーバー上のWebサイトの一般的な場所は/ home / websiteName / public_htmlです。 robots.txtに関する限り、これは単なるルートディレクトリ、または/.

簡単な例

おそらく、最も単純なrobots.txtファイルは、すべてのロボットにどこにでも移動するように指示するファイルです。

ユーザーエージェント: *

しかし、「グリッドから外れている」ため、通常の検索エンジンでは見つけられないWebサイトが必要な場合、robots.txtファイルは次のようになります。

ユーザーエージェント:*許可しない:/

より現実的なケースは、Google検索ロボットがプライベートエリアに行きたくない場合です。

ユーザーエージェント:Googlebot Disallow:/ cgi-bin / Disallow:/ wp-admin /

Robots.txtのその他の機能?

ロボット除外標準は、ISOやW3Cなどの権威ある機関によってバックアップされていないため、特定のロボットが注意を向ける内容はさまざまです。したがって、今説明したuser-agentコマンドとdisallowコマンドは、実際に信頼できるものです。しかし、robots.txtファイルに追加できる他の非標準コマンドがあります.

許可する

allowコマンドはほぼ標準です。ほとんどのロボットはそれを理解しています。しかし、実際にはあまり役に立ちません。一般的に、許可されていないサイトの小さな部分をクロールするための方法として使用されます。ほとんどのロボットは、コマンドが長い方を優先します。混乱する可能性があるため、避けてください。.

ユーザーエージェント:*禁止:/許可:/ wp

クロール遅延

クロール遅延は、ロボットがサイトにアクセスできる頻度をロボットに伝えます。当初のアイデアは、ロボットがWebサーバーを支配しないようにすることでした。つまり、不注意によるDoS攻撃を回避する方法でした。しかし、ほとんどのロボットはそれを使用せず、使用するロボットもさまざまな方法で使用します.

ユーザーエージェント:*クロール遅延:10

ホスト

hostコマンドは、ロボットにクロールするホストを指示します。これは奇妙に見えるかもしれませんが、ミラーサイトを対象としています。 freeware.comと呼ばれるベースWebサイトがあり、freeware1.comとfreeware2.comをミラーリングしている場合、他の2つがまったく同じであることを前提として、ロボットがfreeware.comのみをクロールすることは理にかなっています。.

ユーザーエージェント:*ホスト:freeware.com

サイトマップ

このコマンドは、サイトのXMLサイトマップがどこにあるかをロボットに伝えます。一般に、サイトマップは検索エンジンに直接送信されます.

ユーザーエージェント:*サイトマップ:http://www.mysite.com/sitemap.xml

メタタグ

robots.txtファイルに加えて、robotsメタタグもあります。それらを使用することにより、ロボットがページごとのレベルで何をすべきかを示すことができます。ほとんどのメタタグと同様に、名前とコンテンツの2つの属性を使用します。.

name属性には通常、「ロボット」という単語が含まれています。ただし、特定のロボットの名前、またはコンマで区切られた複数のロボットの名前を含めることができます.

content属性には、カンマで区切られた1つ以上のコマンドが含まれます。最も一般的なものは、「noindex」(ページをインデックスに登録しない)と「nofollow」(ページのリンクをたどらない)です。他にも、index、follow、none、noarchive、nocache、nosnippetなど、多くのパラメーターがあります。詳細については、高度なリソースを参照してください.

その他のリソース

以下に、robots.txtの最新のガイド、チュートリアル、ツールのコレクションがあります。.

基本的な紹介

  • Robots.txtファイルを作成および構成する方法:主題の優れた完全な紹介.
  • Web Robots Pages:robots.txtファイルの基本的な紹介.
  • Robots.txtとは何か:SEOの側面に重点を置いたMOZページ.
  • Robots.txtファイルとは何か:すべての基本を紹介するPatrick Sextonの記事.
  • ロボットタグについて:メタタグを使用したロボットの制御に関する基本情報.
  • インタラクティブな例でRobots.txtについて学ぶ:robots.txtファイルの完全な紹介.

高度な情報

  • Robots.txtの詳細:パターンマッチングを含む、主題の良い議論.
  • Robots.txt仕様:Googleの仕様。ファイルの使用方法を正確に説明しています.
  • Robots Exclusion Protocol:robots.txtファイルの使用方法に関するBingからの情報.
  • Robots.txtは自殺ノート:Archives.orgがrobots.txtファイルを読み取らなくなった理由についての説明で、robots.txtは「現代における愚かな、ばかげた考え」と見なしています。
  • WordPressで特定の投稿やページのインデックス作成を検索エンジンで停止する方法:WordPressに重点を置いていますが、この記事ではrobotsメタタグの徹底的な紹介を提供します.
  • 5K以上のディレクティブを使用してSEOをブロックおよび破棄する方法:1つのWebサイトが複雑すぎるrobots.txtファイルが原因でその可視性がどのように破壊されたかに関するケーススタディ.
  • Robots.txtの禁止:避けるべき20年間の間違い:robots.txtファイルで行わないことについての良いアドバイス.

Robots.txtツール

  • マカネリンのロボット制御コード生成ツール:ルールを作成するためのいくつかの特定のロボットを備えたフル機能のrobots.txtジェネレーター.
  • SEO Book Tools:robots.txtファイルを作成およびチェックするためのシンプルなツール.
  • ロボットデータベース:300を超えるロボットのリストとそれぞれの詳細.
  • Robots.txtテスター:robots.txtファイルをチェックするためのGoogleのツール。あなたのサイトでGoogleができること、できないことをGoogleが考えていることを理解することが重要です.

概要

robots.txtファイルとrobotsメタタグは、ウェブサイトの所有者と管理者にとって便利なツールです。しかし、あなたはそれらに細心の注意を払わなければなりません。誤って使用すると、ウェブサイトの表示に大きな悪影響を与える可能性があります.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map