Robots Exclusion Protocol

Robots Exclusion Protocol to protokół informujący automaty,

że nie powinny ściagać danych stron.

Dotyczy to głównie automatów wyszukiwarek www,

które mają zwyczaj ściągać losowe strony w sieci do katalogu.

Powody zwykle są techniczne. Na Wikipedii np. nie ma sensu, żeby strony edycji,

takie jak http://pl.wikipedia.com/wiki.cgi?action=edit&id=XXX,

były indeksowane (jak dotychczas SĄ one indeksowane, ponieważ Robots Exclusion Protocol nie jest stosowany przez Wikipedie).

Nieraz żądanie strony wywołuje też skutki uboczne, np. głosując na jakąś opcje w sondażu.

Są 2 mechanizmy Robots Exclusion Protocol: robots.txt i meta-tagi

Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera.

Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

Pole User-agent oznacza jakich programów dany rekord dotyczy.

Pola Disallow to prefiksy urli, których ściągać nie wolno.

Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.

Jest też możliwe podawanie w tagach HTML: <meta name='robots' contents ='X'>,

gdzie X to:

Meta-tagi wymagają analizy HTMLa więc są uznawane o wiele rzadziej niż robots.txt