Robots Exclusion Protocol
Robots Exclusion Protocol to protokół informujący automaty,
że nie powinny ściagać danych stron.
Dotyczy to głównie automatów wyszukiwarek www,
które mają zwyczaj ściągać losowe strony w sieci do katalogu.
Powody zwykle są techniczne. Na Wikipedii np. nie ma sensu, żeby strony edycji,
takie jak http://pl.wikipedia.com/wiki.cgi?action=edit&id=XXX,
były indeksowane (jak dotychczas SĄ one indeksowane, ponieważ Robots Exclusion Protocol nie jest stosowany przez Wikipedie).
Nieraz żądanie strony wywołuje też skutki uboczne, np. głosując na jakąś opcje w sondażu.
Są 2 mechanizmy Robots Exclusion Protocol: robots.txt i meta-tagi
robots.txt
Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera.
Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:
- komentarzy zaczętych od #
- rekordów oddzielonych pustymi liniami
- rekord składa się z pól Nazwa: Wartość
- jednego pola User-agent
- pól Disallow
Pole User-agent oznacza jakich programów dany rekord dotyczy.
Pola Disallow to prefiksy urli, których ściągać nie wolno.
Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.
Meta-tagi
Jest też możliwe podawanie w tagach HTML: <meta name='robots' contents ='X'>,
gdzie X to:
- nofollow - nie podążaj za linkami na stronie
- noindex - nie indeksów strony
- noindex,nofollow - i jedno i drugie
Meta-tagi wymagają analizy HTMLa więc są uznawane o wiele rzadziej niż robots.txt