Robots.txt: چگونه می تواند به رتبه بندیهای جستجوی وب سایت شما کمک کند یا آنها را آزار دهد

افشای: پشتیبانی شما به حفظ سایت کمک می کند! ما برای برخی از خدماتی که در این صفحه توصیه می کنیم هزینه ارجاع دریافت می کنیم.


پرونده robots.txt ابزاری ویژه است که توسط وب سایت ها برای گفتن به روبات های اینترنتی که ممکن است از آنچه می توانند و نمی توانند بازدید کنند ، استفاده شده است..

به عنوان مثال ، قبل از اینکه Googlebot از وب سایت شما بازدید کند ، پرونده robots.txt را بخواند تا ببیند کجا می تواند و نمی تواند برود ، چه اطلاعاتی را می تواند جمع کند و مواردی از این قبیل. البته این کار را انجام می دهد زیرا نماینده یک شرکت مستقر است که به شهرت خود اهمیت می دهد.

اگر برخی از کلاهبرداران اینترنتی ScamBot5000 را ایجاد کرده اند ، احتمالاً حتی پرونده robots.txt را نخوانده اید – به جز شاید برای دیدن جایی که شما نمی خواستید آن را جستجو کند.

بنابراین چرا از Robots.txt استفاده می کنیم?

با توجه به اینکه ربات ها مجبور نیستند از آنچه در پرونده robots.txt موجود است رعایت کنند ، به نظر می رسد که اتلاف وقت است. اما در واقع می تواند بسیار مهم باشد. مطمئناً ، هرزنامه ها به وب سایت شما آمده و نظرهای بی فایده ارسال می کنند ، اما این مسئله متفاوت با راه حل های مختلف است. پرونده robots.txt برای کمک به موتورهای جستجو و بایگانی ها می داند که چگونه می توانند در سایت خود حرکت کنند.

تحت اکثر شرایط ، وب سایت ها می خواهند که روبات ها کل سایت های خود را بررسی کنند. اما نه همیشه. تصور کنید سایتی دارید که به دو قسمت تقسیم می شود. یک قسمت شامل یک وبلاگ است که شما به جهان می گویید که درباره هر تلفن هوشمند جدیدی که در بازار آمده است چه فکر می کنید. و قسمت دیگر عکس هایی از کودک جدید شما دارد. شما فکر نمی کنید افرادی که تصاویر کودک خود را نگاه می کنند ، زیرا او به عنوان یک دکمه زیبا است.

اما شما نمی خواهید این عکس ها در پایگاه داده های موتور جستجو درج شوند که افرادی که حتی نمی دانند شما چه کسی هستند روی آنها بیایند. یا شاید شما فقط نمی خواهید سرور خود را مالیات دهید زیرا به نظر می رسد بیش از 10،000 عکس با وضوح بالا از کودک جدید خود دارید.

صرف نظر از دلیل ، می توانید از فایل robots.txt برای گفتن به موتورهای جستجو استفاده کنید: مقالات تلفن های هوشمند من را فهرست کنید اما تصاویر کودک من را تنها بگذارید.

چگونه Robots.txt کار می کند

دستورات داخل آن به عنوان پروتکل طرد روباتها گفته می شود. حدود سال 1994 است ، و هرگز به طور رسمی استاندارد نشده است. اما به هر حال مدیریت خوبی دارد.

چیز زیادی برای آن وجود دارد (که به آنها خواهیم رسید). اما بیشتر ، فقط دو دستور وجود دارد: (1) آنهایی که می گویند دستورات مربوط به چه روبات ها استفاده می شوند. و (2) کسانی که به روبات ها می گویند چه کاری می توانند و چه کاری نمی توانند انجام دهند.

دستور عامل کاربر

تمام بخش های یک پرونده robots.txt با یک دستور کاربر-عامل شروع می شود. این فرم است:

عامل کاربر: [نام ربات]

در این حالت ، [نام ربات] می تواند یا نام یک ربات خاص (به عنوان مثال Googlebot) یا تمام ربات ها باشد که با نمادی از ستاره ها نشان داده می شود. این مورد دوم شایع ترین است. به دنبال کاربر-عامل ، تمام دستورات تا خط کاربر-عامل بعدی (در صورت وجود) به آن ارجاع می دهند..

رد کردن

متداول ترین دستورات موجود در پرونده robots.txt مواردی هستند که ربات را مجاز به رفتن به مکان های مختلف وب سایت نمی دانند. تمام خطوط با فرمت کاربر-عامل مشابه هستند:

مجاز نیست: [نام پرونده یا فهرست]

در این حالت ، [پرونده یا نام فهرست] نسبت به ریشه وب سایت داده می شود. به عنوان مثال ، یک مکان مشترک برای وب سایت در سرور مشترک است / home / وب سایت نام / public_html. در مورد robots.txt ، این فقط فهرست اصلی است ، یا /.

مثالهای ساده

شاید ساده ترین پرونده robots.txt پرونده ای باشد که به همه روبات ها می گوید به هر کجا که می خواهند بروند:

عامل کاربر: *

اما اگر وب سایتی را می خواهید خاموش باشد که توسط موتورهای جستجو عادی پیدا نشود ، ممکن است پرونده robots.txt شما مانند این باشد:

نماینده کاربر: * مجاز نیست: /

یک مورد واقع بینانه تر از آن مواردی است که شما نمی خواهید ربات جستجوی Google به مناطق خصوصی برود:

نماینده کاربر: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Robots.txt چه کاری انجام می دهد?

از آنجا که استاندارد محرومیت روبات ها از هیچ بدنه معتبری مانند ISO و W3C پشتیبانی نمی شود ، دقیقاً آنچه را که هر ربات مورد توجه قرار می دهد متغیر است. بنابراین ، دستورات نماینده کاربر و غیرفعال کردن دستوراتی که ما فقط در مورد آنها بحث کردیم همه چیزهایی هستند که واقعاً به آنها بستگی دارد. اما دستورات غیر استاندارد دیگری وجود دارد که می توانید به پرونده robots.txt خود اضافه کنید.

اجازه

دستور اجازه تقریباً استاندارد است. اکثر روبات ها آنرا درک می کنند. اما واقعاً فایده ای ندارد. معمولاً به عنوان روشی برای حک کردن قسمت کوچکی از سایت غیرمجاز مجاز به خزیدن استفاده می شود. اکثر روباتها تقدم دارند هر کدام که فرمان طولانی تر باشد. این می تواند گیج کننده باشد و باید از آن جلوگیری کرد.

مثال

نماینده کاربر: * مجاز نیست: / مجاز: / wp

خزیدن-تأخیر

Crawl-تاخیر به ربات می گوید که چند بار می تواند از سایت بازدید کند. ایده اصلی این بود که یک ربات از تسلط بر سرور وب جلوگیری نکند. به عبارت دیگر ، این راهی برای جلوگیری از حمله DoS سهوا بود. اما اکثر روبات ها از آن و کارهایی که انجام می دهند استفاده نمی کنند ، از روش های مختلفی استفاده می کنند.

مثال

عامل کاربر: * خزیدن-تاخیر: 10

میزبان

فرمان میزبان به ربات می گوید که چه میزبان آن باید خز شود. این ممکن است عجیب به نظر برسد ، اما برای سایت های آینه در نظر گرفته شده است. اگر وب سایت پایه ای به نام freeware.com و آینه های freeware1.com و freeware2.com داشتید ، منطقی است که روبات ها فقط freeware.com را خز کنند ، با توجه به اینکه دو مورد دیگر دقیقاً یکسان هستند.

مثال

نماینده کاربر: * میزبان: freeware.com

نقشه سایت

این دستور به روبات ها می گوید که نقشه سایت XML در کجا می توان یافت. به طور کلی ، نقشه های نقشه به طور مستقیم به موتورهای جستجو ارسال می شود.

مثال

نماینده کاربر: * نقشه سایت: http://www.mysite.com/sitemap.xml

برچسب های متا

علاوه بر پرونده robots.txt ، برچسب های متا ربات نیز وجود دارند. با استفاده از آنها ، می توانید آنچه را که روبات ها باید در سطح هر صفحه انجام دهند ، مشخص کنید. مانند اکثر برچسب های متا ، از دو ویژگی استفاده می کند: نام و محتوا.

این ویژگی معمولاً حاوی کلمه “روبات” است. با این حال ، این می تواند شامل نام یک ربات خاص – یا حتی چند مورد جدا از کاما باشد.

صفت محتوا شامل یک یا چند دستور است که با کاما از هم جدا شده اند. رایج ترین آنها “noindex” است (صفحه را ایندکس نکنید) و “nofollow” (پیوندهای موجود در صفحه را دنبال نکنید). بسیاری از پارامترهای دیگر از جمله: index، follow، no، noarchive، nocache و nosnippet. برای اطلاعات بیشتر به منابع پیشرفته مراجعه کنید.

مثال

منابع بیشتر

در زیر مجموعه ای به روز از راهنماها ، آموزش ها و ابزار robots.txt را مشاهده می کنید.

مقدمات اساسی

  • نحوه ایجاد و پیکربندی پرونده Robots.txt: یک معرفی عالی و کامل در مورد موضوع.
  • صفحات وب Robots: مقدماتی اساسی در پرونده robots.txt.
  • What Is Robots.txt: صفحه MOZ که بیشتر در قسمت SEO کارها متمرکز است.
  • File Robots.txt چیست: مقاله پاتریک Sexton که مقدمه خوبی برای همه اصول ارائه می دهد.
  • درباره Tag Robots: اطلاعات اصلی در مورد کنترل روبات ها با برچسب متا.
  • درباره Robots.txt با مثال های تعاملی بیاموزید: معرفی کاملی در پرونده های robots.txt.

اطلاعات پیشرفته

  • نگاهی عمیق تر به Robots.txt: بحث خوبی در مورد موضوع از جمله تطبیق الگوی.
  • مشخصات Robots.txt: مشخصات Google ، که دقیقاً نحوه استفاده از پرونده را توضیح می دهد.
  • پروتکل خروج از روبات: اطلاعاتی از بینگ در مورد چگونگی استفاده از پرونده های robots.txt.
  • Robots.txt یک یادداشت خودکشی است: توضیحی از Archive.org در مورد اینکه چرا حتی پرونده های robots.txt را نمی خواند ، که آن را “ایده احمقانه و احمقانه در دوران مدرن” می داند.
  • نحوه متوقف کردن موتورهای جستجو از نمایه سازی پست ها و صفحات خاص در وردپرس: اگرچه تمرکز بیشتر روی وردپرس است ، اما این مقاله معرفی کاملی در برچسب های متا روبات ها می کند..
  • نحوه مسدود کردن و از بین بردن SEO با دستورالعمل های 5K +: یک مطالعه موردی درباره چگونگی تخریب یک وب سایت به دلیل وجود یک فایل robots.txt پیچیده.
  • Robots.txt عدم اجازه: 20 سال اشتباه برای جلوگیری از: توصیه های خوب در مورد آنچه با فایل robots.txt خود انجام دهید.

ابزارهای Robots.txt

  • ابزار تولید کد کنترل ربات های مک آنرین: یک ژنراتور کامل با ویژگی robots.txt با تعدادی ربات خاص برای ایجاد قوانین برای.
  • ابزار کتاب جستجوگرها: ابزارهای ساده برای ایجاد و بررسی پرونده های robots.txt.
  • بانک اطلاعات ربات ها: لیستی از بیش از 300 ربات و جزئیات مربوط به هر کدام.
  • Robots.txt Tester: ابزار Google برای بررسی پرونده robots.txt شما. این بسیار مهم است که شما بدانید که Google چه فکر می کند می تواند و نمی تواند در سایت شما انجام دهد.

خلاصه

پرونده robots.txt و ربات های متا می توانند ابزارهای مفیدی برای صاحبان وب سایت و سرپرستان باشند. اما باید مراقب آنها باشید. در صورت استفاده نادرست ، آنها می توانند به دید وب سایت شما آسیب بزرگی وارد کنند.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me