Robots.txt: kaip tai gali padėti ar pakenkti jūsų svetainės paieškos reitingui

Atskleidimas: Jūsų palaikymas padeda išlaikyti svetainę! Mes uždirbame siuntimo mokestį už kai kurias paslaugas, kurias rekomenduojame šiame puslapyje.


Failas robots.txt yra specialus įrankis, kurį naudoja internetinės svetainės, norėdamos pranešti visiems interneto robotams, kurie gali apsilankyti, ką gali ir ko negali.

Pvz., Prieš „Googlebot“ apsilankydamas jūsų svetainėje, jis perskaito failą robots.txt, kad sužinotų, kur jis gali ir ko negali eiti, kokią informaciją gali rinkti ir panašiai. Žinoma, ji tai daro, nes atstovauja įsitvirtinusiai įmonei, kuriai rūpi jos reputacija.

Jei kai kurie interneto sukčiai sukūrė „ScamBot5000“, greičiausiai jis net neskaitys failo robots.txt – išskyrus galbūt norėdami pamatyti, kur nenorėjote jo ieškoti.

Taigi, kodėl naudoti robots.txt?

Atsižvelgiant į tai, kad robotai neprivalo laikytis to, kas yra faile robots.txt, tai gali atrodyti kaip laiko švaistymas. Bet iš tikrųjų tai gali būti labai svarbu. Aišku, spam’ai pateks į jūsų svetainę ir paskelbs nenaudingus komentarus, tačiau tai yra skirtinga problema, turinti skirtingus sprendimus. Failas robots.txt yra naudojamas siekiant padėti paieškos varikliams ir archyvams žinoti, kaip naršyti jūsų svetainę.

Daugeliu atvejų svetainės nori, kad robotai patikrintų visas savo svetaines. Bet ne visada. Įsivaizduokite, kad turite svetainę, padalytą į dvi dalis. Vienoje dalyje yra internetinis dienoraštis, kuriame galite pasakyti pasauliui, ką galvojate apie kiekvieną naują išmanųjį telefoną, kuris pasirodo rinkoje. O kitoje dalyje yra jūsų naujojo kūdikio nuotraukos. Jūs neprieštaraujate žmonėms, žiūrintiems į jūsų kūdikio paveikslėlius, nes jis yra mielas kaip mygtukas.

Bet jūs nenorite, kad nuotraukos būtų įtrauktos į paieškos sistemų duomenų bazes, kuriose galėtų apsilankyti žmonės, kurie net nežino, kas esate. O gal tiesiog nenorite, kad jūsų serveris būtų apmokestintas, nes tiesiog turite daugiau nei 10 000 didelės skiriamosios gebos nuotraukų iš savo naujojo kūdikio.

Nepriklausomai nuo priežasties, naudodamiesi robots.txt failu, galite pasakyti paieškos sistemoms: indeksuokite mano išmaniųjų telefonų straipsnius, bet palikite mano kūdikio nuotraukas ramybėje.

Kaip veikia „Robots.txt“

Komandos, esančios jo viduje, yra nurodytos kaip robotų pašalinimo protokolas. Tai buvo maždaug nuo 1994 m. Ir niekada nebuvo oficialiai standartizuota. Bet vistiek ji sugeba dirbti gana gerai.

Tam yra daug (ko mes pateksime). Tačiau dažniausiai yra tik dvi komandos: (1) kurios nurodo, kuriems robotams komandos taikomos; ir 2) tie, kurie robotams nurodo, ką jie gali ir ko negali.

Vartotojo-agento komanda

Visi failo robots.txt skyriai prasideda komanda „User-agent“. Jis yra tokios formos:

Vartotojo agentas: [roboto vardas]

Tokiu atveju [roboto vardas] gali būti konkretaus roboto (pvz., „Googlebot“) arba visų robotų, pažymėtų žvaigždute simboliu, pavadinimas. Pastarasis atvejis yra labiausiai paplitęs. Po vartotojo agento visos komandos nurodo jį iki kitos eilutės Vartotojo agentas (jei yra)..

Neleisti

Dažniausios robots.txt failo komandos yra tos, kurios neleidžia robotui eiti į skirtingas svetainės vietas. Visos eilutės yra panašios į vartotojo agento formatą:

Neleisti: [failo arba katalogo pavadinimas]

Tokiu atveju [failo arba katalogo pavadinimas] pateikiamas atsižvelgiant į svetainės šaknį. Pvz., Įprasta svetainės vieta bendrame serveryje yra / home / websiteName / public_html. Kalbant apie robots.txt, tai yra tik šakninis katalogas, arba.

Paprasti pavyzdžiai

Turbūt paprasčiausias failas robots.txt yra tas, kuris liepia visiems robotams vykti kur nori:

Vartotojo atstovas: *

Bet jei norite svetainės, kuri yra „atsieta nuo tinklo“ ir kurios negali rasti įprastos paieškos sistemos, jūsų robots.txt failas gali atrodyti taip:

Vartotojo agentas: * Neleisti: /

Realesnis atvejis būtų atvejis, kai nenorite, kad „Google“ paieškos robotas vyktų į privačias zonas:

Vartotojo agentas: „Googlebot“ neleisti: / cgi-bin / neleisti: / wp-admin /

Ką dar daro „Robots.txt“?

Kadangi robotų išskyrimo standarto nepalaiko jokia autoritetinga įstaiga, tokia kaip ISO ir W3C, kintama yra būtent tai, į ką bet kuris robotas atkreips dėmesį. Taigi, vartotojo agentas ir neleidžiamos komandos, kurias ką tik aptarėme, yra viskas, nuo ko jūs galite priklausyti. Tačiau yra ir kitų nestandartinių komandų, kurias galite pridėti prie savo robots.txt failo.

Leisti

Komanda leisti yra beveik standartinė. Daugelis robotų tai supranta. Bet tai iš tikrųjų nėra labai naudinga. Paprastai jis naudojamas kaip būdas aptikti nedidelę apžiūrimos svetainės dalį, kuriai neleidžiama. Daugelis robotų teikia pirmenybę tam, kuri komanda yra ilgesnė. Tai gali sukelti painiavą ir to reikėtų vengti.

Pavyzdys

Vartotojo agentas: * Neleisti: / Leisti: / wp

Tikrinti-atidėlioti

Nuskaitymo uždelsimas nurodo robotui, kaip dažnai jis gali apsilankyti svetainėje. Pradinė idėja buvo neleisti robotui dominuoti interneto serveryje. Kitaip tariant, tai buvo būdas išvengti netyčinio DoS išpuolio. Tačiau dauguma robotų to nenaudoja, o tie, kurie naudojasi, naudojasi skirtingais būdais.

Pavyzdys

Vartotojo agentas: * Tikrinimo trukmė: 10

Priimančioji

Pagrindinio kompiuterio komanda nurodo robotui, kurį kompiuterį jis turėtų aptikti. Tai gali atrodyti keista, tačiau jis skirtas veidrodinėms vietoms. Jei turėtumėte pagrindinę svetainę, vadinamą freeware.com, ir kuri atspindėtų „freeware1.com“ ir „freeware2.com“, robotams būtų prasminga tikrinti tik „freeware.com“, atsižvelgiant į tai, kad kiti du bus lygiai tokie patys.

Pavyzdys

Vartotojo agentas: * Pagrindinis kompiuteris: freeware.com

Svetainės schema

Ši komanda nurodo robotams, kur galima rasti svetainės XML svetainės schemą. Paprastai svetainių schemos pateikiamos tiesiogiai paieškos sistemoms.

Pavyzdys

Vartotojo agentas: * Svetainės schema: http://www.manosvetainė.com/svetainės schema.xml

Meta žymės

Be robots.txt failo, taip pat yra robotų metažymos. Naudodamiesi jais galite nurodyti, ką robotai turėtų daryti puslapio lygiu. Kaip ir daugumoje metažymų, joje naudojami du atributai: vardas ir turinys.

Vardo atribute paprastai yra žodis „robotai“. Tačiau tai gali apimti konkretaus roboto pavadinimą – ar net kelis, atskirtus kableliais.

Turinio atribute yra viena ar daugiau komandų, atskirtų kableliais. Dažniausiai pasitaikančios yra „noindex“ (neindeksuokite puslapio) ir „nofollow“ (nesekite nuorodų puslapyje). Yra daugybė kitų parametrų, įskaitant: rodyklę, sekimą, jokio, noarchyvą, nocache ir nosnippet. Norėdami gauti daugiau informacijos, žiūrėkite išplėstinius išteklius.

Pavyzdys

Kiti šaltiniai

Žemiau rasite naujausią robots.txt vadovų, vadovėlių ir įrankių kolekciją.

Pagrindinės įžangos

  • Kaip sukurti ir sukonfigūruoti failą „Robots.txt“: puikus ir išsamus įvadas į temą.
  • Žiniatinklio robotų puslapiai: pagrindinis įrašas apie robots.txt failą.
  • Kas yra Robots.txt: MOZ puslapis, kuriame daugiau dėmesio skiriama dalykų SEO pusei.
  • Kas yra „Robots.txt“ failas: Patriko Sextono straipsnis, kuriame gerai supažindinama su visais pagrindais.
  • Apie robotų žymą: pagrindinė informacija apie robotų valdymą naudojant metažymą.
  • Sužinokite apie „Robots.txt“ su interaktyviais pavyzdžiais: išsamus įrašas apie robots.txt failus.

Išplėstinė informacija

  • Gilesnis žvilgsnis į Robots.txt: gera diskusija tema, įskaitant modelių derinimą.
  • „Robots.txt“ specifikacijos: „Google“ specifikacija, tiksliai paaiškinanti, kaip jie naudoja failą.
  • Robotų pašalinimo protokolas: informacija iš „Bing“ apie tai, kaip naudojami robots.txt failai.
  • „Robots.txt“ yra savižudybės pastaba: „Archive.org“ paaiškinimas, kodėl jis nebeskaito net robots.txt failų, kuriuos laiko „kvaila, kvaila idėja moderniaisiais laikais“.
  • Kaip sustabdyti paieškos variklių indeksavimą konkrečiuose „WordPress“ pranešimuose ir puslapiuose: nors pagrindinis dėmesys skiriamas „WordPress“, šis straipsnis pateikia išsamų įvadą į robotų metažymas.
  • Kaip blokuoti ir sunaikinti SEO naudojant „5K +“ direktyvas: atvejo analizė, kaip viena svetainė sunaikino jos matomumą dėl pernelyg komplikuoto robots.txt failo.
  • Robots.txt neleisti: 20 metų klaidų, kurių reikia vengti: geras patarimas, ko nedaryti su robots.txt failu.

„Robots.txt“ įrankiai

  • „McAnerin“ robotų valdymo kodo generavimo įrankis: visokeriopas robots.txt generatorius su keliais konkrečiais robotais, kad būtų sukurtos taisyklės.
  • SEO knygų įrankiai: paprasti įrankiai robots.txt failams kurti ir tikrinti.
  • Robotų duomenų bazė: daugiau nei 300 robotų sąrašas ir išsami informacija apie kiekvieną iš jų.
  • „Robots.txt“ testeris: „Google“ įrankis robots.txt failui patikrinti. Labai svarbu žinoti, ką „Google“ mano, kad gali ir ko negali padaryti jūsų svetainėje.

Santrauka

Failas robots.txt ir robotų metažymos gali būti naudingi įrankiai svetainių savininkams ir administratoriams. Bet jūs turite būti labai atsargūs su jais. Jei jie naudojami neteisingai, jie gali labai pakenkti jūsų svetainės matomumui.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map