Robots.txt: Bagaimana Cara Membantu atau Menyakiti Peringkat Pencarian Situs Web Anda

Penyingkapan: Dukungan Anda membantu menjaga situs tetap berjalan! Kami mendapatkan biaya referensi untuk beberapa layanan yang kami rekomendasikan pada halaman ini.


File robots.txt adalah alat khusus yang digunakan oleh situs web untuk memberi tahu robot internet apa pun yang mungkin mengunjungi apa yang mereka bisa dan tidak bisa lakukan.

Misalnya, sebelum Googlebot mengunjungi situs web Anda, ia membaca file robots.txt untuk melihat di mana ia bisa dan tidak bisa pergi, informasi apa yang dapat dikumpulkannya, dan hal-hal seperti itu. Tentu saja, ini karena ia mewakili perusahaan mapan yang peduli dengan reputasinya.

Jika beberapa scammer internet membuat ScamBot5000, itu mungkin bahkan tidak akan membaca file robots.txt – kecuali mungkin untuk melihat di mana Anda tidak ingin mencari.

Jadi Mengapa Menggunakan Robots.txt?

Mengingat bahwa robot tidak harus mematuhi apa yang ada di file robots.txt, itu bisa terlihat seperti buang-buang waktu. Tapi itu sebenarnya bisa sangat penting. Tentu, robot spam akan datang ke situs web Anda dan mengirim komentar yang tidak berguna, tetapi itu masalah yang berbeda dengan solusi yang berbeda. File robots.txt digunakan untuk membantu mesin pencari dan pengarsip tahu cara menavigasi situs Anda.

Dalam sebagian besar keadaan, situs web ingin robot memeriksa seluruh situs mereka. Tapi tidak selalu. Bayangkan Anda memiliki situs yang dibagi menjadi dua bagian. Satu bagian berisi blog tempat Anda memberi tahu dunia apa pendapat Anda tentang setiap smartphone baru yang ada di pasaran. Dan bagian lain memiliki gambar bayi baru Anda. Anda tidak keberatan orang-orang melihat gambar-gambar bayi Anda, karena ia memang lucu sebagai tombol.

Tetapi Anda tidak ingin foto-foto itu dimasukkan dalam basis data mesin pencari tempat orang-orang yang bahkan tidak tahu siapa Anda mungkin akan melihatnya. Atau mungkin Anda hanya tidak ingin server Anda dikenakan pajak karena Anda baru saja memiliki lebih dari 10.000 gambar resolusi tinggi dari bayi baru Anda.

Apa pun alasannya, Anda dapat menggunakan file robots.txt untuk memberi tahu mesin pencari: mengindeks artikel ponsel cerdas saya tetapi tinggalkan gambar bayi saya sendiri.

Cara Kerja Robots.txt

Perintah di dalamnya disebut sebagai Robot Pengecualian Robot. Sudah ada sejak tahun 1994, dan tidak pernah secara resmi distandarisasi. Tapi itu berhasil dengan cukup baik.

Ada banyak hal (yang akan kita dapatkan). Tetapi sebagian besar, hanya ada dua perintah: (1) perintah yang memberi tahu kepada robot mana perintah itu berlaku; dan (2) mereka yang memberi tahu robot apa yang bisa dan tidak bisa mereka lakukan.

Perintah Agen Pengguna

Semua bagian file robots.txt mulai dengan perintah Agen-pengguna. Bentuknya:

Agen-pengguna: [nama-robot]

Dalam hal ini, [nama robot] dapat berupa nama robot tertentu (misalnya, Googlebot) atau semua robot, yang ditandai dengan simbol tanda bintang. Kasus terakhir ini adalah yang paling umum. Mengikuti Agen-pengguna, semua perintah merujuknya hingga baris Agen-pengguna berikutnya (jika ada).

Melarang

Perintah yang paling umum dalam file robots.txt adalah perintah yang melarang robot untuk pergi ke berbagai tempat di situs web. Semua baris memiliki format yang mirip dengan format Agen-pengguna:

Disallow: [nama file atau direktori]

Dalam hal ini, [nama file atau direktori] diberikan relatif terhadap root situs web. Misalnya, lokasi umum untuk situs web pada server bersama adalah / home / websiteName / public_html. Sejauh menyangkut robots.txt, ini hanya direktori root, atau /.

Contoh sederhana

Mungkin file robots.txt yang paling sederhana adalah yang memberitahu semua robot untuk pergi ke mana pun mereka inginkan:

Agen pengguna: *

Tetapi jika Anda menginginkan situs web yang “off the grid” dan tidak dapat ditemukan oleh mesin pencari biasa, file robots.txt Anda mungkin terlihat seperti ini:

User-agent: * Disallow: /

Kasus yang lebih realistis adalah kasus di mana Anda tidak ingin robot pencarian Google pergi ke area pribadi:

User-agent: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Apa Lagi yang Dilakukan Robots.txt?

Karena standar pengecualian robot tidak didukung oleh badan otoritatif seperti ISO dan W3C, apa yang akan diperhatikan oleh robot mana pun adalah variabel. Dengan demikian, agen-pengguna dan melarang perintah yang baru saja kita diskusikan adalah hal yang dapat Anda andalkan. Tetapi ada perintah tidak standar lain yang bisa Anda tambahkan ke file robots.txt Anda.

Mengizinkan

Perintah allow hampir standar. Kebanyakan robot memang memahaminya. Tapi itu benar-benar tidak berguna. Ini umumnya digunakan sebagai cara untuk mengukir sebagian kecil dari situs yang tidak diizinkan untuk dirayapi. Kebanyakan robot memberikan prioritas pada perintah mana yang lebih panjang. Ini bisa membingungkan dan harus dihindari.

Contoh

User-agent: * Disallow: / Allow: / wp

Crawl-Delay

Crawl-delay memberi tahu robot seberapa sering ia dapat mengunjungi situs. Gagasan asli adalah untuk menjaga robot agar tidak mendominasi server web. Dengan kata lain, itu adalah cara untuk menghindari serangan DoS yang tidak disengaja. Tetapi kebanyakan robot tidak menggunakannya dan yang melakukannya, menggunakannya dengan cara yang berbeda.

Contoh

Agen-pengguna: * Keterlambatan perayapan: 10

Tuan rumah

Perintah host memberi tahu robot yang mana host yang harus dirayapi. Ini mungkin aneh, tetapi ditujukan untuk situs mirror. Jika Anda memiliki situs web dasar bernama freeware.com dan mirror freeware1.com dan freeware2.com, masuk akal jika robot hanya merayapi freeware.com, mengingat dua lainnya akan persis sama.

Contoh

Agen-pengguna: * Host: freeware.com

Peta Situs

Perintah ini memberi tahu robot tempat XML sitemap situs dapat ditemukan. Secara umum, peta situs dikirimkan langsung ke mesin pencari.

Contoh

Agen-pengguna: * Sitemap: http://www.mysite.com/sitemap.xml

Tag Meta

Selain file robots.txt, ada juga tag meta robots. Dengan menggunakannya, Anda dapat menunjukkan robot apa yang harus dilakukan pada tingkat per halaman. Seperti kebanyakan tag meta, ia menggunakan dua atribut: nama dan konten.

Atribut nama biasanya berisi kata “robot.” Namun, itu dapat menyertakan nama robot tertentu – atau bahkan beberapa yang dipisahkan oleh koma.

Atribut konten berisi satu atau lebih perintah, dipisahkan dengan koma. Yang paling umum adalah “noindex” (jangan indeks halaman) dan “nofollow” (jangan ikuti tautan di halaman). Ada banyak parameter lain, termasuk: indeks, ikuti, tidak ada, noarchive, nocache, dan nosnippet. Lihat sumber daya lanjutan untuk informasi lebih lanjut.

Contoh

Sumber Daya Lebih Lanjut

Di bawah ini Anda menemukan kumpulan panduan, tutorial, dan alat terbaru untuk robots.txt.

Perkenalan Dasar

  • Cara Membuat dan Mengkonfigurasi File Robots.txt Anda: pengantar yang bagus dan menyeluruh untuk subjek.
  • Halaman Robots Web: pengantar dasar untuk file robots.txt.
  • What Is Robots.txt: halaman MOZ yang lebih fokus pada sisi SEO.
  • Apa itu File Robots.txt: Artikel Patrick Sexton yang memberikan pengantar yang baik untuk semua dasar-dasarnya.
  • Tentang Tag Robot: informasi dasar tentang mengendalikan robot dengan tag meta.
  • Pelajari Tentang Robots.txt dengan Contoh Interaktif: pengantar menyeluruh untuk file robots.txt.

Informasi Lanjut

  • Pandangan Lebih Dalam pada Robots.txt: diskusi yang baik tentang subjek termasuk pencocokan pola.
  • Spesifikasi Robots.txt: Spesifikasi Google, yang menjelaskan bagaimana mereka menggunakan file tersebut.
  • Protokol Pengecualian Robot: informasi dari Bing tentang bagaimana file robots.txt digunakan.
  • Robots.txt Adalah Catatan Bunuh Diri: sebuah penjelasan dari Archive.org tentang mengapa ia tidak lagi membaca file robots.txt, yang dianggapnya sebagai “ide bodoh dan konyol di era modern.”
  • Cara Menghentikan Mesin Pencari Dari Pengindeksan Posting dan Halaman Tertentu di WordPress: meskipun fokusnya ada pada WordPress, artikel ini memberikan pengantar menyeluruh ke tag meta robot.
  • Cara Memblokir dan Menghancurkan SEO dengan 5K + Arahan: studi kasus tentang bagaimana satu situs web menghancurkan visibilitasnya karena file robots.txt yang terlalu rumit.
  • Robots.txt Disallow: 20 Tahun Kesalahan yang Harus Dihindari: saran bagus tentang apa yang tidak boleh dilakukan dengan file robots.txt Anda.

Alat Robots.txt

  • Alat Pembuatan Kode Kontrol Robot McAnerin: generator robots.txt berfitur lengkap dengan sejumlah robot khusus untuk membuat aturan untuk.
  • SEO Book Tools: alat sederhana untuk membuat dan memeriksa file robots.txt.
  • Database Robot: daftar lebih dari 300 robot dan detail tentang masing-masing.
  • Tester Robots.txt: Alat Google untuk memeriksa file robots.txt Anda. Sangat penting bagi Anda untuk mengetahui apa yang menurut Google dapat dan tidak bisa dilakukan di situs Anda.

Ringkasan

File robots.txt dan tag meta robots dapat menjadi alat yang berguna untuk pemilik dan administrator situs web. Tetapi Anda harus sangat berhati-hati dengan mereka. Jika digunakan secara tidak benar, mereka dapat sangat merusak visibilitas situs web Anda.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map