Súbor robots.txt je obyčajný textový súbor, ktorý vytvoríte napr. v poznámkovom bloku. Názov súboru musí byť napísaný malými písmenami a musí byť umiestnený v koreňovom adresári webu (hneď za .cz/.sk/.com atp.), napríklad takto https://www.zonercloud.sk/robots.txt
Na každom riadku je uvedené, ktorý robot (user-agent) kam nesmie. Vyhľadávače pravidelne súbor robots.txt na weboch kontrolujú, aby zistili, či existujú nejaké pokyny pre prechádzanie webu. Tieto inštrukcie nazývame direktívy. Pokiaľ nie je prítomný žiadny súbor robots.txt, alebo neexistujú žiadne použitelné príkazy, vyhľadávače automaticky prehľadajú celý web.
Napriek tomu, že všetky hlabné vyhľadávače súbor robots.txt rešpektujú, niektoré sa môžu rohodnúť ho ignorovať (alebo jeho časti). Zatiaľ čo príkazy v súbore robots.txt sú silným signálom pre vyhľadávače, je dôležité si uvedomiť, že tento súbor je iba súhrn volitelných direktív, nie príkazov.
UPOZORNENIE: Nenechajte sa zmiasť na prvý pohľad jednoduchým neškodným súborom. Pri neodbornom zacházdaní môžete narobiť veľke škody.
Súbor robots.txt je veľmi dôležitý aj pre účely SEO. Pri väčšich webových stránkach je robots.txt dokonca nutný. Zabraňuje duplicitnému obsahu a poskytuje vyhľadávačom užitečné tipy, ako môžu vaše webové stránky prechádzať efektívnejšie.
Pri vykonávaní zmien v súbore robots.txt však buďte opatrný. Tento súbor môže spôsobiť, že veľké časti vášho webu budú pre vyhľadávače nedostupné.
Výkonný a ľahko použitelný server nie len pre WordPress s prehľadnou administráciou, pravidelnou zálohou a SSL certifikátmi ZADARMO s automatickou inštaláciou a následnou obnovou.
Vytvárajte si neobmedzený počet služieb už od 340 mesačne!
Každý vyhľadávač by sa mal identifikovať pomocou tzv. user-agenta:
Toto označenie v súbore robots.txt vždy definuje začiatok skupiny smerníc. Všetky direktívy medzi prvým user-agent a ďalším user-agent záznamom sú považováné za direktívy pre prvý záznam user-agent.
Direktívy sa môžu vťahovať iba na konkrétne vyhľadávače, ale môžu byť tiež použitelné na všetkých user-agentov. V takom prípade sa použije zástupný znak User-agent: *
.
Nižšie uvádzame niekoľko príkladov zápisu robots.txt:
Existuje niekoľko spôsobov, ako oznámiť vyhľadávačom , že majú prístup ku všetkým súborom:
User-agent: *
Disallow:
Druhou možnosťou je nechať súbor robots.txt prázdný alebo ho nemať vôbec.
Nižšie uvedený príklad robots.txt hovorí všetkým vyhľadávačom, aby nevstupovali na celý web:
User-agent: *
Disallow: /
Berte prosím na vedomie, že iba JEDEN znak navyše môže mať zásadný dopad.
User-agent: googlebot
Disallow: /
Upozorňujeme, že pokiaľ Googlebota zakážete, platí to pre všetkých Googlebotov. To zahŕňa robotov Google, ktorý hľadajú napríklad správy (googlebot-news) a obrázky (googlebot-images).
User-agent: Slurp
User-agent: googlebot
Disallow: /
User-agent: *
Disallow: /admin/
Disallow: /private/
Nižšie uvedený súbor robots.txt je špecialne optimalizovaný pre WordPress za predpokladu, že nechcete, aby boli prehľadávané:
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page
Sitemap: https://www.example.com/sitemap_index.xml
Vezmite prosím na vedomie, že tento súbor robots.txt bude vo väčšine prípadov fungovať, ale mali by ste ho vždy upraviť a otestovať, aby ste sa uistili, že platí presne pre vašu situáciu.
TIP: V roku 2019 navrhol Google rozšírenie protokolu Robots Exclusion Protocol a sprístupnil svůj analyzátor robots.txt ako open source.
UPOZORNENIE: Každá direktíva by mala byť na samostatnom riadku, inak by ste vyhľadávače mohli pri analýze súboru robots.txt zbytočne zmiasť.
Príklad nesprávného súboru robots.txt:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/
Pri implementácií súboru robots.txt majte na pamäti nasledujúce odporúčané postupy:
crawl-delay
*