Przejdź do zawartości

Robots Exclusion Protocol

Z Wikipedii, wolnej encyklopedii
To jest stara wersja tej strony, edytowana przez Taw (dyskusja | edycje) o 12:56, 3 cze 2002. Może się ona znacząco różnić od aktualnej wersji.
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)

Robots Exclusion Protocol to protokół informujący automaty,

że nie powinny ściagać danych stron.


Dotyczy to głównie automatów wyszukiwarek www,

które mają zwyczaj ściągać losowe strony w sieci do katalogu.


Powody zwykle są techniczne. Na Wikipedii np. nie ma sensu, żeby strony edycji,

takie jak http://pl.wikipedia.com/wiki.cgi?action=edit&id=XXX,

były indeksowane (jak dotychczas SĄ one indeksowane, ponieważ Robots Exclusion Protocol nie jest stosowany przez Wikipedie).


Nieraz żądanie strony wywołuje też skutki uboczne, np. głosując na jakąś opcje w sondażu.


Są 2 mechanizmy Robots Exclusion Protocol: robots.txt i meta-tagi


robots.txt

Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera.

Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

  • komentarzy zaczętych od #
  • rekordów oddzielonych pustymi liniami
    • rekord składa się z pól Nazwa: Wartość
      • jednego pola User-agent
      • pól Disallow


Pole User-agent oznacza jakich programów dany rekord dotyczy.

Pola Disallow to prefiksy urli, których ściągać nie wolno.


Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.


Meta-tagi

Jest też możliwe podawanie w tagach HTML: <meta name='robots' contents ='X'>,

gdzie X to:

  • nofollow - nie podążaj za linkami na stronie
  • noindex - nie indeksów strony
  • noindex,nofollow - i jedno i drugie


Meta-tagi wymagają analizy HTMLa więc są uznawane o wiele rzadziej niż robots.txt