2008.10.25.

Robots.txt

A robots.txt eredeti angol nevén "The Robots Exclusion Protocol" ami olyasmit jelent, hogy a robotok tiltására szolgáló protokol és valójában pontosan erre szolgál. A gyökérkönyvtárban elhelyezett robots.txt segítségével a keresőrobotok számára lehet tiltani, hogy a megadott fileokat, könyvtárakat, vagy akár az egyész weboldalt indexeljék. Ezen felül az xml formátumú oldaltérkép helyét is meg lehet adni keresőrobotoknak a robots.txt segítségével, bár ez ma már csak félmegoldás (később lesz még szó bővebben az oldaltérképekről). Robots.txt használata nélkül az összes keresőrobotnak megengedett az összes tartalom indexelése, ami általában nem feltétlenül gond. A robots.txt tartalma egyszerű, az User-agent kezdetű sor a robot azonosítóját tartalmazza, a Disallow pedig azt jelöli mely tartalmat nem indexelhetik. Az összes robotra vonatkozó tiltások esetén az User-agent: * -ot kell alkalmazni.  Kerüljön külön sorokba az User-agent és a Disallow, ha több tiltást kell kezelni akkor több Disallow sor is lehet egy-egy robotra vonatkozóan, viszont az egyes robotok számára külön kell megadni. Néhány példa a robots.txt tartalmára Az összes robot tiltása a teljes weboldalról: User-agent: * Disallow: / Az összes robot tiltása könyvtárakra: User-agent: * Disallow: /csakezakonyvtar/ Disallo: /es-ezakonyvtar-is/ Google tiltása egy filera: User-agent: Googlebot Disallow: /nemakarom/hogylassak.html Oldaltérkép megadása: Sitemap: http://azoldalam.com/sitemap.xml További robots.txt példák Robotok és User-agent -ek listája Több esetben is szükség lehet egy-egy robot tiltására, de tudni kell: a rosszindulatú robotokat a robots.txt nem fékezi meg! Tehát, ha nem egy normálisan működő kereső robotja fürkészi a webet, hanem mondjuk egy sebezhető, vagy spammelhető oldalakat kereső robotról van szó, az fittyet hány a robots.txt tartalmára ugyanúgy mint a vonatkozó törvényi előírásokra. Továbbá a robots.txt -ben nem túl okos dolog felsorolni az összes elrejtendő file listáját, mert ez egy publikus file, bárki hozzáférhet és lehet, hogy valaki pont az elrejtendő tartalom listájára kíváncsi... tehát ez a file nem az admin könyvtár elrejtésére szolgál, illetve a "nem indexelésre szánt" tartalmakat érdemes egy könyvtárba helyezni és aztán könyvtárt tiltani egyben, így nem kell egy ilyen jellegű file listát "publikálni". Az elkészült robots.txt működését például a Google Webmester Eszközök segítségével is lehet ellenőrizni.



Csatlakozz a beszélgetéshez!

Oldaltérkép  ♦  Adatvédelem  ♦  Jogi nyilatkozat

 Gyimesi András+ © 2008 H-Well Kft. Minden jog fenntartva.