Robots Exclusion Standard

Nach diesem Protokoll liest ein Webcrawler beim Auffinden einer Webseite zuerst die Datei robots.txt im Wurzelverzeichnis (Root) einer Domain. In dieser Datei kann festlegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Serverbetreiber haben so die Möglichkeit ausgesuchte Bereiche ihres Servers für (bestimmte) Suchmaschinen zu sperren.

Beispiel: robots.txt von Wikipedia