thomas breitenbücher - software-, anwendungs-, office- und web-programmierung in bietigheim-bissingen

Webseiten optimieren: Die Datei robots.txt

Allgemeines zu robots.txt
Beispiele zum Aufbau der Datei
Weiterführende Links
Korrespondierende Meta-Tags
robots.txt online überprüfen

Allgemeines zu robots.txt:

Robots (auch spider oder crawler genannt) sind kleine Programme, die die zugänglichen Bereiche des Internets automatisiert nach erkennbaren Informationen absuchen. Um die Reaktionen solcher Suchprogramme beeinflussen zu können, wurde ein Quasi-Standard in Form einer speziellen Text-Datei geschaffen.

Wenn Ihr Webangebot in einer eigenen Domain nach dem Muster mein-name.de liegt, können Sie auf der obersten Ebene der Verzeichnisstruktur (dem sog. Wurzelverzeichnis, engl. root) eine Datei namens robots.txt ablegen. Andernfalls müssen Sie mit den bescheideneren Möglichkeiten spezieller Meta-Tags vorlieb nehmen.

Die Mehrzahl der robots, spider und crawler der Internet-Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt und befolgen die darin enthaltenen Anweisungen.

Diese Datei ist eine reine Textdatei und sollte dementsprechend mit einem Texteditor bearbeitet werden.

nach oben

Einfache Beispiele zum Aufbau der Datei:

# Abschnitt für alle bots
User-agent: *
Disallow:

erlaubt ALLEN robots ALLES, da durch fehlende Angaben zu disallow NICHTS verboten wurde.
Kommentarzeilen werden mit # eingeleitet.

User-agent: BoeserRobot/1.0
Disallow: /

erlaubt dem Robot BoeserRobot/1.0 NICHTS, da für ihn ALLES ab der obersten Verzeichnisebene verboten wurde.
Ein wirklich "böser" Robot wird sich aber an die Konventionen einer robots.txt sichrlich nicht halten.

User-agent: *
Disallow: /privat/
Disallow: /newsticker.shtml

erlaubt ALLEN robots ALLES, außer den Zugriff auf das Verzeichnis privat und die Datei newsticker.shtml.

# Sitemap
Sitemap: https://www.breitenbuecher.de/sitemap.xml.gz

als eigenständiger Abschnitt nennt die URL einer Sitemap-Datei, die z.B: Beispiel von Google regelmäßig ausgelesen werden kann.

nach oben

Weiterführende Links:

Eine Liste mit Namen und Kennungen einzelner Robots können Sie bei selfhtml unter List of User-Agents (Spiders, Robots, Crawler, Browser) finden.

Dort finden Sie auch einen ausführlichen Artikel über weiterführende Details zum Thema robots.txt .

Eine weitere detaillierte Beschreibung finden Sie bei Björn Höhrmann .

nach oben

Korrespondierende Meta-Tags:

Zusätzlich zu den Möglichkeiten das Verhalten von Suchmaschinen-Robots zu kontrollieren, die Ihnen die robots.txt-Datei bietet, können Sie das in geringerem Umfang auch durch eine sog. Metatag-Angabe im Head-Bereich des html-Dokumentes tun.

<meta name="robots" content="noindex"></meta>

Für den Inhalt des Attributes content sind folgende Werte vorgesehen:

index		Inhalte aus der Datei übermitteln
noindex		keine Inhalte der Datei übermitteln
follow		Inhalte der Datei übermitteln, Verweisen zu anderen Dateien folgen
nofollow		Inhalte der Datei übermitteln, Verweisen zu anderen Dateien nicht folgen

Ausführliche Informationen zum Gebrauch vom Meta-Tags finden Sie bei Meta-Angaben zum Inhalt (wie üblich) in selfhtml von Stefan Münz.

nach oben

robots.txt online überprüfen:

Sie können die Erreichbarkeit und den richtigen Aufbau einer beliebigen robots.txt-Datei online überprüfen lassen.
Folgen Sie dem Link zm Robots.txt Checker von Motoricerca.
Dort können Sie per Eingabe einer vollständigen URL (inkl. "robots.txt"-Angabe) eine beliebige robots.txt-Datei überprüfen lassen.

nach oben