Robots.txt: Hogyan segíthet vagy bánthatja webhelyének keresési rangsorát

Közzététel: Támogatása segít fenntartani a webhely működését! Az ezen az oldalon javasolt szolgáltatások némelyikén referenciadíjat keresünk.


A robots.txt fájl egy speciális eszköz, amelyet a weboldalak használnak, hogy megmondják minden olyan internetes robotnak, amely meglátogathatja, hogy mit tehetnek és mit nem tudnak.

Például, mielőtt a Googlebot meglátogatja a webhelyét, elolvassa a robots.txt fájlt, hogy megnézze, hová ment és nem tud menni, milyen információkat gyűjthet, és ilyesmi. Természetesen ezt teszi, mert egy megalapozott társaságot képvisel, amely törődik hírnevével.

Ha néhány internetes csaló létrehozta a ScamBot5000-et, akkor valószínűleg nem is olvassa el a robots.txt fájlt – kivéve talán annak érdekében, hogy megnézze, hol nem akarta keresni..

Tehát miért használja a Robots.txt fájlt??

Mivel a robotoknak nem kell betartaniuk a robots.txt fájlban találhatókat, idő pazarlásnak tűnhet. De valójában nagyon fontos lehet. Persze, a spamrok eljutnak az Ön webhelyére, és felesleges kommentárokat jelentenek, de ez más kérdés, különböző megoldásokkal. A robots.txt fájlt arra használják, hogy a keresőmotorok és az archiválók tudják, hogyan kell navigálni a webhelyen.

A legtöbb esetben a webhelyek azt akarják, hogy a robotok ellenőrizzék a teljes webhelyüket. De nem mindig. Képzelje el, hogy van egy weboldala, amely két részre oszlik. Az egyik rész egy blogot tartalmaz, ahol elmondja a világnak, hogy mit gondol minden új okostelefonról, amely piacra kerül. És a másik rész képeket tartalmaz új babájáról. Nem bánod, ha az emberek a babájuk képeit nézik, mert végül is aranyos, mint egy gomb.

De nem akarja, hogy azok a képek szerepeljenek a keresőmotorok adatbázisaiban, ahol az emberek, akik még csak nem is tudják, ki vagy, jönnek rájuk. Vagy csak nem akarja, hogy a szervert adóztassák, mert éppen több, mint 10 000 nagy felbontású képe van új babájáról.

Az indoktól függetlenül, a robots.txt fájl segítségével megmondhatja a keresőmotoroknak: indexelje okostelefon cikkeim, de bébi képeim.

Hogyan működik a Robots.txt

A benne levő parancsokra robotok kizárási protokolljaként hivatkozunk. 1994 óta működik, és soha nem volt hivatalosan szabványosítva. De egyébként elég jól működik.

Nagyon sok van hozzá (amit el fogunk jutni). De többnyire csak két parancs létezik: (1) azok, amelyek megmondják, melyik robotra vonatkoznak a parancsok; és (2) azok, akik elmondják a robotoknak, mit tudnak és mit nem tudnak.

Felhasználói ügynök parancs

A robots.txt fájl minden szakasza a User-agent paranccsal kezdődik. A következő formájú:

Felhasználói ügynök: [robotnév]

Ebben az esetben a [robotnév] lehet egy adott robot (pl. Googlebot) vagy az összes robot neve, amelyet csillag szimbólum jelöl. Ez utóbbi eset a leggyakoribb. A User-agent követése után az összes parancs a következő User-agent sorra (ha van) hivatkozik rá..

tiltása

A robots.txt fájlban a leggyakoribb parancsok azok, amelyek tiltják a robotnak, hogy a webhely különböző pontjaira menjen. Az összes sor hasonló formátumú, mint a User-agent formátum:

Tiltás: [fájl vagy könyvtár neve]

Ebben az esetben a [fájl vagy könyvtár neve] megadása a webhely gyökéréhez viszonyítva. Például a megosztott szerveren található webhelyek közös helyét a / home / websiteName / public_html adja meg. Ami a robots.txt-t illeti, ez csak a gyökérkönyvtár, vagy /.

Egyszerű példák

Talán a legegyszerűbb robots.txt fájl az, amely minden robotot felszólít arra, hogy menjen bárhová:

Felhasználói ügynök: *

De ha olyan webhelyet szeretne, amely „nincs a hálózaton”, és amelyet a szokásos keresőmotorok nem találnak, akkor a robots.txt fájl így néz ki:

Felhasználói ügynök: * Tiltás: /

Reálisabb eset lenne, ha nem akarja, hogy a Google keresőrobot privát területeken működjön:

Felhasználói ügynök: Googlebot Tiltás: / cgi-bin / Tiltás: / wp-admin /

Mit csinál más a Robots.txt?

Mivel a robotok kizárási szabványát nem támasztja alá olyan tekintélyes testület, mint például az ISO és a W3C, változik a pontosan az, amellyel az adott robot figyelni fog. Így a felhasználói ügynökök és a tiltó parancsok, amikről éppen beszélgettünk, mindazok, amelyektől valóban függhet. Vannak más, nem szabványos parancsok, amelyeket felvehet a robots.txt fájlba.

Lehetővé teszi

Az engedélyezés parancs szinte szabványos. A legtöbb robot megérti. De valójában nem nagyon hasznos. Általában arra szolgál, hogy kiválasszuk az egyébként tiltott hely kis részét a feltérképezéshez. A legtöbb robot elsőbbséget élvez attól függően, hogy melyik parancs hosszabb. Zavaró lehet, és kerülendő.

Példa

Felhasználói ügynök: * Tiltás: / Engedélyezés: / wp

Crawl-késleltetés

A feltérképezés-késleltetés megmutatja a robotnak, hogy milyen gyakran látogathatja meg a webhelyet. Az eredeti ötlet az volt, hogy egy robot ne uralja a webszervert. Más szóval, ez volt a módja a véletlen DoS támadás elkerülésének. De a legtöbb robot nem használja, és azok, akik használják, különböző módon használják.

Példa

Felhasználói ügynök: * Feltérképezés-késleltetés: 10

Házigazda

A gazdaparancs megmondja a robotnak, hogy melyik gazdagépnek kell feltérképeznie. Ez furcsának tűnhet, de tükrös helyekre szánja. Ha rendelkezne egy freeware.com nevű alap webhellyel, amely tükrözi a freeware1.com és freeware2.com webhelyeket, akkor értelme lenne, ha a robotok csak a freeware.com webhelyet feltérképezik, mivel a másik kettő pontosan ugyanaz.

Példa

Felhasználói ügynök: * Host: freeware.com

Oldaltérkép

Ez a parancs megmondja a robotoknak, hogy hol található a webhely XML webhelytérképe. Általában a webhelytérképeket közvetlenül a keresőmotorokhoz továbbítják.

Példa

Felhasználói ügynök: * Webhelytérkép: http://www.webhely.com/ webhelytérkép.xml

Meta Címkék

A robots.txt fájlon kívül vannak még robotok metacímkék is. Ezek használatával meg tudja jelölni, hogy a robotoknak mit kell tennie oldalanként. A legtöbb metacímkéhez hasonlóan két attribútumot is használ: nevet és tartalmat.

A névattribútum általában a „robotok” szót tartalmazza. Ez magában foglalhatja egy adott robot nevét – vagy akár többet vesszővel elválasztva.

A content attribútum egy vagy több parancsot tartalmaz, vesszővel elválasztva. A leggyakoribb a „noindex” (ne indexálja az oldalt) és a „nofollow” (ne kövesse az oldalon található hivatkozásokat). Sok más paraméter is létezik, például: index, follow, nincs, noarchive, nocache és nosnippet. További információt a speciális forrásokban talál.

Példa

További források

Az alábbiakban talál egy legfrissebb útmutatót, útmutatót és eszközt a robots.txt fájlhoz.

Alapvető bevezetések

  • A Robots.txt fájl létrehozása és konfigurálása: nagyszerű és alapos bevezetés a témához.
  • A webes robotok oldalai: a robots.txt fájl alapvető bevezetése.
  • Mi a Robots.txt: a MOZ oldal, amely inkább a dolgok SEO oldalára koncentrál.
  • Mi az a Robots.txt fájl: Patrick Sexton cikke, amely jó bevezetést nyújt az összes alaphoz.
  • A robotok címkéjéről: alapvető információk a robotok metataggal történő irányításáról.
  • Tudjon meg többet a Robots.txt-ről az interaktív példákkal kapcsolatban: a robots.txt-fájlok alapos ismertetése.

Speciális információk

  • Mélyebb pillantás a Robots.txt oldalra: a téma jó megbeszélése, beleértve a minták illesztését.
  • Robots.txt specifikációk: A Google specifikációja, amely pontosan elmagyarázza, hogyan használják a fájlt.
  • Robots kizárási protokoll: információ a Bingtől a robots.txt fájlok használatáról.
  • A Robots.txt öngyilkossági megjegyzés: az Archive.org magyarázata, hogy miért nem olvassa tovább a robots.txt fájlokat, melyet „ostoba, ostoba ötletnek tart a modern korban”.
  • Hogyan állíthatjuk le a keresőmotorokat a bizonyos hozzászólások és oldalak indexeléséből a WordPress-ben: Noha a WordPress-re összpontosítunk, ez a cikk alaposan bemutatja a robotok metacímkéit.
  • Hogyan blokkolhatjuk és pusztíthatjuk el a SEO-t az 5K + irányelvekkel: esettanulmány arról, hogy az egyik webhely megsemmisítette láthatóságát egy túl bonyolult robots.txt fájl miatt.
  • Robots.txt tiltása: 20 év elkerülhető hiba: jó tanács arról, hogy mit ne tegyen a robots.txt fájlhoz.

Robots.txt eszközök

  • A McAnerin robotvezérlő kód-előállító eszköze: teljes értékű robots.txt generátor, számos meghatározott robotmal, amelyek szabályokat hoznak létre a.
  • SEO Book Tools: egyszerű eszközök a robots.txt fájlok létrehozásához és ellenőrzéséhez.
  • Robot-adatbázis: több mint 300 robot listája és azok részletei.
  • Robots.txt tesztelő: A Google eszköze a robots.txt fájl ellenőrzéséhez. Fontos, hogy tudd, mit gondol a Google a webhelyén és mit nem tud megtenni.

összefoglalás

A robots.txt fájl és a robotok metacímkék hasznos eszközök lehetnek a webhelyek tulajdonosai és a rendszergazdák számára. De nagyon óvatosan kell velük viselkednie. Helytelen felhasználás esetén súlyosan károsíthatja webhelye láthatóságát.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map