[Die Datei robots.txt]

Robots oder Spider sind Programme, die von Suchmaschinen ausgeführt werden und sich von Seite zu Seite durchs Web hangeln. Dabei werden die gefundenen Seiten indexiert und gewisse Daten in die Datenbänke der Suchmaschinen aufgenommen. Ein Robot sucht nach Links in einer Seite und folgt diesen dann. Somit hat ein Webmaster eigentlich keine Kontrolle, welche Wege sich ein Robot sucht.

Metatags bieten gewisse Funktionen, um Robots zu steuern, es geht aber auch mit einer zentralen Datei namens robots.txt. Die überwiegende Anzahl Robots sucht immer zuerst nach dieser Datei, bevor sie mit dem Indexieren beginnt und hält sich bei Auffinden an die darin definierten Regeln.

Es kann vorkommen, dass Sie auf Ihrem Webserver Dateien liegen haben, die nicht unbedingt für die Öffentlichkeit bestimmt sind oder ganz einfach nicht in Suchmaschinen aufgenommen werden sollen. Beispiele hierfür sind noch nicht freigegebene Seiten oder auch Programme, Skripte und ganze Webseiten, die nur für einen bestimmten Kreis zugänglich sein sollen. Manchmal macht es auch einfach keinen Sinn, Verzeichnisse spidern zu lassen. Handelt es sich hierbei zum Beispiel um Logfiles, müssen diese nun wirklich nicht von Suchmaschinen aufgenommen werden.

Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis einer Domain abgelegt werden muss und den Robots angibt, wo sie nicht suchen dürfen und welche speziellen Seiten nicht aufgenommen werden sollen.

Pro Domain darf es nur eine robots.txt geben, außerdem sollten Sie darauf achten, dass alle Buchstaben klein geschrieben werden müssen.

Wie muss eine robots.txt aufgebaut sein?

In einer robots.txt können mehrere Regeln hintereinander festgelegt werden. Dabei bestehen diese Regeln immer aus zwei Teilen. Als erstes muss angegeben werden, für wen diese Regel bestimmt ist. Hierbei kann man einzelne Robots mit Namen ansprechen oder die Regel für alle Robots gültig machen. Die Suchmaschinen geben Ihren Robots verschiedene Namen, diese sehen Sie dann auch in Ihren Logfiles. So heißt der Robot von AltaVista zum Beispiel Scooter, Excite hat seinen Robot ArchitextSpider genannt. Viele Suchmaschinen geben auf Ihren Seiten an, unter welchem Namen Ihre Robots durch das Web wandern.
Pro Zeile kann man einen Robot angeben, jede Zeile muss mit dem Wort ‚User-agent' und einem Doppelpunkt anfangen. Beispiel:

User-agent: Scooter

Wollen Sie eine Regel für alle Robots festlegen, müssen Sie statt einem Robot-Namen ein * angeben:

User-agent: *

Hinter der Angabe der Robots folgt nun eine Auflistung der Verzeichnisse und Dateien, die nicht aufgenommen werden soll. Hier kann man auch explizit angeben, welche Dateien oder Verzeichnisse aufgenommen werden dürfen. Dabei muss jedes Verzeichnis, jede Datei in einer Zeile angegeben werden, angefangen mit Disallow oder Allow, dann folgt ein Doppelpunkt und die Angabe der Datei, des Verzeichnisses. So kann das dann aussehen:

Disallow: /verzeichnis1/
Disallow: /verzeichnis2/unterverzeichnis/
Disallow: /datei.htm
Allow: /verzeichnis3/

Dabei müssen Sie darauf achten, dass Sie den Pfad ohne Domain angeben und immer mit einem Slash beginnen.

Wenn Sie einen Robot für die komplette Domain sperren wollen, müssen Sie einfach nur einen Slash angeben. Wollen Sie zum Beispiel den Robot von Inktomi/Hotbot aussperren, würde das so aussehen:

User-agent: Slurp
Disallow: /

Das ist zum Beispiel dann sinnvoll, wenn ein Robot ständig wiederkommt und Ihren Traffic unverhältnismäßig hoch belastet. Im Gegenzug kann man auch alle Verzeichnisse freigeben, dazu muß man einfach nichts angeben:

User-Agent: Slurp
Disallow:

Grundsätzlich kann als Faustregel genommen werden, dass den Robots alles erlaubt ist, was in der robots.txt nicht explizit verboten wird.

Zusätzlich zu den Suchmaschinen-Spidern gibt es noch spezielle Spider, die nach Email-Adressen suchen, um diese dann in eine Datenbank aufzunehmen. Wenn Sie verhindern wollen, dass solche Adressen-Sammler Ihre Adressen ausspionieren oder zum Beispiel alle Adressen aus Ihrem Gästebuch aufnehmen, müssen Sie als Robot-Namen den EmailCollector angeben.

Die verschiedenen Regeln müssen Sie durch eine Leerzeile trennen, Beispiel:

User-agent: EmailCollector
Disallow: /

User-Agent: *
Disallow: /verzeichnis3/
 

Eine Liste bekannter Robots finden Sie unter: http://www.robotstxt.org/wc/active/html/index.html

Copyright © 1998- Data Becker & Nightfire Java Archiv