Robots.txt: Bagaimana Ia Dapat Membantu atau Mengurangi Peringkat Pencarian Laman Web Anda

Pendedahan: Sokongan anda membantu mengekalkan laman web ini! Kami memperoleh bayaran rujukan untuk beberapa perkhidmatan yang kami cadangkan di halaman ini.


Fail robots.txt adalah alat khas yang digunakan oleh laman web untuk memberitahu mana-mana robot internet yang mungkin mengunjungi apa yang boleh dan tidak dapat mereka lakukan.

Sebagai contoh, sebelum Googlebot melawat laman web anda, ia membaca fail robots.txt untuk melihat ke mana ia boleh dan tidak boleh pergi, maklumat apa yang dapat dikumpulkannya, dan perkara seperti itu. Sudah tentu, ini dilakukan kerana mewakili syarikat yang mapan yang mementingkan reputasinya.

Sekiranya beberapa penipu internet membuat ScamBot5000, mungkin tidak akan membaca fail robots.txt – kecuali mungkin untuk melihat di mana anda tidak mahu ia mencari.

Jadi Mengapa Menggunakan Robots.txt?

Memandangkan robot tidak perlu mematuhi apa yang ada di dalam fail robots.txt, ia kelihatan seperti membuang masa. Tetapi sebenarnya boleh menjadi sangat penting. Pasti, spambots akan masuk ke laman web anda dan menghantar komen yang tidak berguna, tetapi itu adalah masalah yang berbeza dengan penyelesaian yang berbeza. Fail robots.txt digunakan untuk membantu mesin pencari dan penyelam mengetahui cara menavigasi laman web anda.

Dalam kebanyakan keadaan, laman web mahu robot memeriksa keseluruhan laman webnya. Tetapi tidak selalu. Bayangkan anda mempunyai laman web yang terbahagi kepada dua bahagian. Satu bahagian mengandungi blog di mana anda memberitahu dunia apa pendapat anda tentang setiap telefon pintar baru yang muncul di pasaran. Dan bahagian lain mempunyai gambar bayi baru anda. Anda tidak kisah orang melihat gambar bayi anda, kerana dia sememangnya comel seperti butang.

Tetapi anda tidak mahu gambar tersebut disertakan dalam pangkalan data enjin carian di mana orang yang bahkan tidak mengetahui siapa anda mungkin akan datang. Atau mungkin anda tidak mahu pelayan anda dikenakan cukai kerana kebetulan anda mempunyai lebih dari 10,000 gambar resolusi tinggi bayi baru anda.

Apa pun alasannya, anda boleh menggunakan fail robots.txt untuk memberitahu mesin pencari: indeks artikel telefon pintar saya tetapi tinggalkan gambar bayi saya.

Bagaimana Robots.txt Berfungsi

Perintah di dalamnya disebut sebagai Protokol Pengecualian Robot. Sudah ada sejak tahun 1994, dan tidak pernah diseragamkan secara rasmi. Tetapi ia berjaya dengan baik.

Ada banyak perkara (yang akan kita sampaikan). Tetapi kebanyakannya, hanya ada dua perintah: (1) perintah yang memberitahu robot mana perintah itu digunakan; dan (2) mereka yang memberitahu robot apa yang boleh dan tidak boleh mereka lakukan.

Perintah Ejen Pengguna

Semua bahagian fail robots.txt dimulakan dengan arahan ejen Pengguna. Ia berbentuk:

Ejen pengguna: [nama robot]

Dalam kes ini, [nama robot] boleh menjadi nama robot tertentu (misalnya, Googlebot) atau semua robot, yang ditunjukkan dengan simbol tanda bintang. Kes terakhir ini adalah yang paling biasa. Mengikuti ejen Pengguna, semua arahan merujuknya sehingga baris ejen Pengguna seterusnya (jika ada).

Tidak dibenarkan

Perintah yang paling biasa dalam fail robots.txt adalah perintah yang tidak membenarkan robot pergi ke tempat yang berbeza di laman web. Semua baris mempunyai format yang serupa dengan format ejen Pengguna:

Tidak dibenarkan: [nama fail atau direktori]

Dalam kes ini, [nama fail atau direktori] diberikan relatif kepada akar laman web. Sebagai contoh, lokasi biasa untuk laman web di pelayan bersama adalah / home / websiteName / public_html. Sejauh berkenaan dengan robots.txt, ini hanya direktori root, atau /.

Contoh Mudah

Mungkin fail robots.txt yang paling mudah adalah fail yang memberitahu semua robot untuk pergi ke mana sahaja yang mereka mahukan:

Ejen pengguna: *

Tetapi jika anda mahukan laman web yang “tidak berfungsi” dan tidak dapat dijumpai oleh mesin carian biasa, fail robots.txt anda mungkin kelihatan seperti ini:

Ejen pengguna: * Tidak dibenarkan: /

Kes yang lebih realistik adalah masalah di mana anda tidak mahu robot carian Google pergi ke kawasan peribadi:

Ejen pengguna: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Apa Yang Dilakukan Oleh Robots.txt?

Oleh kerana standard pengecualian robot tidak disokong oleh badan berwibawa seperti ISO dan W3C, apa yang akan diberi perhatian oleh robot yang diberikan adalah berubah-ubah. Oleh itu, perintah ejen pengguna dan larangan yang baru sahaja kita bincangkan adalah yang boleh anda bergantung sepenuhnya. Tetapi ada arahan lain yang tidak boleh anda tambahkan ke fail robots.txt anda.

Benarkan

Perintah allow hampir standard. Sebilangan besar robot memahaminya. Tetapi ia sebenarnya tidak banyak digunakan. Umumnya digunakan sebagai cara untuk mengorek sebagian kecil laman web yang tidak diizinkan untuk dirayapi. Sebilangan besar robot mendahului perintah mana yang lebih lama. Ia boleh mengelirukan dan harus dielakkan.

Contohnya

Ejen pengguna: * Tidak dibenarkan: / Benarkan: / wp

Crawl-Delay

Crawl-delay memberitahu robot berapa kerap ia dapat mengunjungi laman web ini. Idea asalnya adalah untuk mengelakkan robot daripada menguasai pelayan web. Dengan kata lain, itu adalah cara untuk mengelakkan serangan DoS secara tidak sengaja. Tetapi kebanyakan robot tidak menggunakannya dan yang menggunakannya, menggunakannya dengan cara yang berbeza.

Contohnya

Ejen pengguna: * Kelewatan merangkak: 10

Tuan rumah

Perintah hos memberitahu robot mana host yang harus dijalaninya. Ini mungkin kelihatan pelik, tetapi ia bertujuan untuk laman cermin. Sekiranya anda mempunyai laman web pangkalan yang disebut freeware.com dan mencerminkan freeware1.com dan freeware2.com, akan masuk akal bagi robot untuk merayap hanya freeware.com, memandangkan dua yang lain akan sama persis.

Contohnya

Ejen pengguna: * Host: freeware.com

Peta Laman

Perintah ini memberitahu robot di mana peta laman XML laman web dapat dijumpai. Secara umum, peta laman dihantar terus ke mesin pencari.

Contohnya

Ejen pengguna: * Peta Laman: http://www.mysite.com/sitemap.xml

Teg Meta

Selain fail robots.txt, terdapat juga tag meta robot. Dengan menggunakannya, anda dapat menunjukkan apa yang harus dilakukan robot pada tahap setiap halaman. Seperti kebanyakan tag meta, ia menggunakan dua atribut: nama dan kandungan.

Atribut name biasanya mengandungi kata “robot.” Namun, ia boleh merangkumi nama robot tertentu – atau bahkan beberapa robot yang dipisahkan dengan koma.

Atribut kandungan mengandungi satu atau lebih perintah, dipisahkan dengan koma. Yang paling umum adalah “noindex” (jangan mengindeks halaman) dan “nofollow” (jangan ikuti pautan di halaman). Terdapat banyak parameter lain, termasuk: index, follow, none, noarchive, nocache, dan nosnippet. Lihat sumber lanjutan untuk maklumat lebih lanjut.

Contohnya

Sumber Lanjut

Di bawah ini anda dapati koleksi panduan, tutorial dan alat terkini untuk robots.txt.

Pengenalan Asas

  • Cara Membuat dan Mengkonfigurasi Fail Robots.txt Anda: pengenalan yang baik dan menyeluruh mengenai subjek ini.
  • Halaman Robot Web: pengenalan asas untuk fail robots.txt.
  • Apa Itu Robots.txt: halaman MOZ yang lebih tertumpu pada aspek SEO.
  • Apa Itu Fail Robots.txt: Artikel Patrick Sexton yang memberikan pengenalan yang baik untuk semua asas.
  • Mengenai Robot Tag: maklumat asas mengenai mengawal robot dengan tag meta.
  • Ketahui Mengenai Robots.txt dengan Contoh Interaktif: pengenalan menyeluruh ke fail robots.txt.

Maklumat Lanjutan

  • Pandangan Lebih Dalam pada Robots.txt: perbincangan yang baik mengenai subjek termasuk pemadanan corak.
  • Spesifikasi Robots.txt: Spesifikasi Google, yang menerangkan dengan tepat bagaimana mereka menggunakan fail.
  • Protokol Pengecualian Robot: maklumat dari Bing mengenai bagaimana fail robots.txt digunakan.
  • Robots.txt Is a Suicide Note: penjelasan dari Archive.org mengapa ia tidak lagi membaca fail robots.txt, yang dianggapnya sebagai “idea bodoh dan bodoh di era moden.”
  • Cara Menghentikan Mesin Pencari Dari Mengindeks Catatan dan Halaman Tertentu di WordPress: walaupun fokusnya adalah pada WordPress, artikel ini memberikan pengenalan menyeluruh mengenai tag meta robot.
  • Cara Menyekat dan Memusnahkan SEO dengan Arahan 5K +: kajian kes mengenai bagaimana satu laman web merosakkan keterlihatannya kerana fail robots.txt yang terlalu rumit.
  • Robots.txt Larang: Kesalahan 20 Tahun Untuk Dielakkan: nasihat yang baik tentang apa yang tidak boleh dilakukan dengan fail robots.txt anda.

Alat Robots.txt

  • Alat Penjanaan Kod Kawalan Robot McAnerin: penjana robots.txt yang lengkap dengan sejumlah robot tertentu untuk membuat peraturan untuk.
  • Alat Buku SEO: alat mudah untuk membuat dan memeriksa fail robots.txt.
  • Pangkalan Data Robot: senarai lebih dari 300 robot dan perincian mengenai setiap robot.
  • Robots.txt Tester: Alat Google untuk memeriksa fail robots.txt anda. Penting untuk anda mengetahui apa yang difikirkan dan tidak boleh dilakukan oleh Google di laman web anda.

Ringkasan

Tag meta robots.txt dan robot boleh menjadi alat yang berguna untuk pemilik dan pentadbir laman web. Tetapi anda mesti berhati-hati dengan mereka. Sekiranya tidak digunakan dengan betul, ia boleh merosakkan keterlihatan laman web anda.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map