Ako zabrániť prístupu robotov na váš web pomocí súboru robots.txt

Ako zabrániť prístupu robotov na váš web pomocou súboru robots.txt

6. januára 2022 | Daniel Šafařík

Obsah

Úvod
Čo je súbor robots.txt?
Prečo by vás mal zaujímať?
User-agent v súbore robots.txt
Ako má súbor robots.txt vyzerať?
Na čo si dáť pozor pri implementácií?

Zdieľajte článok

Mohlo by vás ďalej zaujímať

Nenašli ste čo ste hľadali?

Kontaktujte nás

Robots.txt patrí medzi základné SEO prvky na webe. S jeho pomocou dokážete pozitívne ovplyvniť výkon vášho webu a limitovať obsah informácií, ktoré sa budú zobrazovať vo výsledkoch vyhladávania. V článku si podrobnejšie povieme čo súbor robots.txt je, prečo je dôležitý, ako by mal vyzerať jeho správny zápis a čomu sa vyvarovať pri jeho implementácii.

Čo je súbor robots.txt?

Súbor robots.txt je obyčajný textový súbor, ktorý vytvoríte napr. v poznámkovom bloku. Názov súboru musí byť napísaný malými písmenami a musí byť umiestnený v koreňovom adresári webu (hneď za .cz/.sk/.com atp.), napríklad takto https://www.zonercloud.sk/robots.txt

Na každom riadku je uvedené, ktorý robot (user-agent) kam nesmie. Vyhľadávače pravidelne súbor robots.txt na weboch kontrolujú, aby zistili, či existujú nejaké pokyny pre prechádzanie webu. Tieto inštrukcie nazývame direktívy. Pokiaľ nie je prítomný žiadny súbor robots.txt, alebo neexistujú žiadne použitelné príkazy, vyhľadávače automaticky prehľadajú celý web.

Napriek tomu, že všetky hlabné vyhľadávače súbor robots.txt rešpektujú, niektoré sa môžu rohodnúť ho ignorovať (alebo jeho časti). Zatiaľ čo príkazy v súbore robots.txt sú silným signálom pre vyhľadávače, je dôležité si uvedomiť, že tento súbor je iba súhrn volitelných direktív, nie príkazov.

UPOZORNENIE: Nenechajte sa zmiasť na prvý pohľad jednoduchým neškodným súborom. Pri neodbornom zacházdaní môžete narobiť veľke škody.

Prečo by vás mal zaujímať?

Súbor robots.txt je veľmi dôležitý aj pre účely SEO. Pri väčšich webových stránkach je robots.txt dokonca nutný. Zabraňuje duplicitnému obsahu a poskytuje vyhľadávačom užitečné tipy, ako môžu vaše webové stránky prechádzať efektívnejšie.

Pri vykonávaní zmien v súbore robots.txt však buďte opatrný. Tento súbor môže spôsobiť, že veľké časti vášho webu budú pre vyhľadávače nedostupné.

WordPress server
teraz so ZĽAVOU 50 %

Výkonný a ľahko použitelný server nie len pre WordPress s prehľadnou administráciou, pravidelnou zálohou a SSL certifikátmi ZADARMO s automatickou inštaláciou a následnou obnovou.

Vytvárajte si neobmedzený počet služieb už od 340 mesačne!

Chcem WordPress

User-agent v súbore robots.txt

Každý vyhľadávač by sa mal identifikovať pomocou tzv. user-agenta:

"Googlebot" (Google)
"Seznambot" (Seznam)
"Slurp" (Yahoo)
"Bingbot" (Bing)

Toto označenie v súbore robots.txt vždy definuje začiatok skupiny smerníc. Všetky direktívy medzi prvým user-agent a ďalším user-agent záznamom sú považováné za direktívy pre prvý záznam user-agent.

Direktívy sa môžu vťahovať iba na konkrétne vyhľadávače, ale môžu byť tiež použitelné na všetkých user-agentov. V takom prípade sa použije zástupný znak User-agent: *.

Ako má súbor robots.txt vyzerať?

Nižšie uvádzame niekoľko príkladov zápisu robots.txt:

Prístup povolený všetkým robotom ku všetkému

Existuje niekoľko spôsobov, ako oznámiť vyhľadávačom , že majú prístup ku všetkým súborom:

User-agent: *
Disallow:

Druhou možnosťou je nechať súbor robots.txt prázdný alebo ho nemať vôbec.

Prístup zakázaný všetkým robotom

Nižšie uvedený príklad robots.txt hovorí všetkým vyhľadávačom, aby nevstupovali na celý web:

User-agent: *
Disallow: /

Berte prosím na vedomie, že iba JEDEN znak navyše môže mať zásadný dopad.

Prístup zakázaný všetkým Google robotom

User-agent: googlebot
Disallow: /

Upozorňujeme, že pokiaľ Googlebota zakážete, platí to pre všetkých Googlebotov. To zahŕňa robotov Google, ktorý hľadajú napríklad správy (googlebot-news) a obrázky (googlebot-images).

Prístup zakázaný všetkým Googlebot (Google) a Slurp (Yahoo)

User-agent: Slurp
User-agent: googlebot
Disallow: /

Prístup zakázaný všetkým robotom k 2 rôznym adresárom

User-agent: *
Disallow: /admin/
Disallow: /private/

Súbor robots.txt optimalizovaný pre WordPress

Nižšie uvedený súbor robots.txt je špecialne optimalizovaný pre WordPress za predpokladu, že nechcete, aby boli prehľadávané:

administrátorská sekcia
vaše interné stránky s výsledky vyhľadávania
stránky s menami autorov článku
404 error stránka

User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

Vezmite prosím na vedomie, že tento súbor robots.txt bude vo väčšine prípadov fungovať, ale mali by ste ho vždy upraviť a otestovať, aby ste sa uistili, že platí presne pre vašu situáciu.

TIP: V roku 2019 navrhol Google rozšírenie protokolu Robots Exclusion Protocol a sprístupnil svůj analyzátor robots.txt ako open source.

UPOZORNENIE: Každá direktíva by mala byť na samostatnom riadku, inak by ste vyhľadávače mohli pri analýze súboru robots.txt zbytočne zmiasť.

Príklad nesprávného súboru robots.txt:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

Na čo si dáť pozor pri implementácií?

Pri implementácií súboru robots.txt majte na pamäti nasledujúce odporúčané postupy:

Pri vykonávaní zmien v súbore robots.txt buďte opatrný. Tento súbor môže spôsobiť, že veľké časti vášho webu budú pre vyhľadávače nedostupné.
Súbor robots.txt by mal byť umiestnený v koreňovom adresári vášho webu
(napr. https://www.zonercloud.sk/robots.txt).
Súbor robots.txt je platný pre celú doménu, v ktorej sa nachádza, vrátane protokolu (http alebo https). Pre subdomény je potom potrebný ďalší súbor.
Rôzne vyhľadávače interpretujú príkazy inak. Vo východzom nastavení vždy vyhráva prvá odpovedajúca direktíva, u Google a Bing víťazí špecifickosť.
Pre súbory robots.txt Google aktuálne podporuje limit veľkosti súboru 512 kilobajtov. Akýkoľvek obsah nad túto maximálnu veľkosť môže byť ignorovaný.
Vyhnite sa čo najviac používaniu direktívy crawl-delay*
*Google uviedol, že súbor robots.txt je všeobecne uložený do medzipamäte po dobu až 24 hodín. Je dôležité vziať to do úvahy pri vykonávaní akýchkoľvek zmien v súbore robots.txt. Všeobecne je najlepšie sa vyhnúť sa ukladaniu súboru robots.txt do medzipamäti, aby vyhľadávačom netrvalo zbytočne dlho než zachytia vykonané zmeny.

Prehľad aktualit

Cloud Server VPS

Cloud Server VPS Dedicated

Cloud Server VPS + LAMP

Cloud Server Ekonom

Cloud Server Webhosting

Cloud Server WordPress

Cloud Server Reseller

Cloud Mail

Cloud Newsleter

Cloud Disk

Technológie a datacentra

Virtualizácia

Software

Grafické karty pre AI/GPU služby

Zálohovanie dát

Zákaznícka administrácia

SSL certifikát Basic DV

SSD Storage

DKIM

Nápověda

Pomocné nástroje

Cenník služeb

Licencovanie softwaru spoločnosti Microsoft

Garancia dostupnosti

Garancia vrátenia platby

Porovnanie výkonu serverov s konkurenciou

Kto sme

Udržateľnosť a životné prostredie

Zákaznícke referencie

Ako zabrániť prístupu robotov na váš web pomocou súboru robots.txt

Obsah

Obsah

Zdieľajte článok

Mohlo by vás ďalej zaujímať

Nenašli ste čo ste hľadali?

Čo je súbor robots.txt?

Prečo by vás mal zaujímať?

WordPress server teraz so ZĽAVOU 50 %

User-agent v súbore robots.txt

Ako má súbor robots.txt vyzerať?

Prístup povolený všetkým robotom ku všetkému

Prístup zakázaný všetkým robotom

Prístup zakázaný všetkým Google robotom

Prístup zakázaný všetkým Googlebot (Google) a Slurp (Yahoo)

Prístup zakázaný všetkým robotom k 2 rôznym adresárom

Súbor robots.txt optimalizovaný pre WordPress

Na čo si dáť pozor pri implementácií?

WordPress server
teraz so ZĽAVOU 50 %