Robots (auch spider oder crawler genannt) sind kleine Programme, die die zugänglichen Bereiche des Internets automatisiert nach erkennbaren Informationen absuchen. Um die Reaktionen solcher Suchprogramme beeinflussen zu können, wurde ein Quasi-Standard in Form einer speziellen Text-Datei geschaffen.
Wenn Ihr Webangebot in einer eigenen Domain nach dem Muster mein-name.de
liegt, können Sie auf der obersten
Ebene der Verzeichnisstruktur (dem sog. Wurzelverzeichnis, engl. root
) eine Datei namens robots.txt ablegen.
Andernfalls müssen Sie mit den bescheideneren Möglichkeiten spezieller Meta-Tags
vorlieb nehmen.
Die Mehrzahl der robots, spider und crawler der Internet-Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt und befolgen die darin enthaltenen Anweisungen.
Diese Datei ist eine reine Textdatei und sollte dementsprechend mit einem Texteditor bearbeitet werden.
# Abschnitt für alle bots User-agent: * Disallow:erlaubt ALLEN robots ALLES, da durch fehlende Angaben zu
disallow
NICHTS verboten wurde.
User-agent: BoeserRobot/1.0 Disallow: /erlaubt dem Robot BoeserRobot/1.0 NICHTS, da für ihn ALLES ab der obersten Verzeichnisebene verboten wurde.
User-agent: * Disallow: /privat/ Disallow: /newsticker.shtmlerlaubt ALLEN robots ALLES, außer den Zugriff auf das Verzeichnis privat und die Datei newsticker.shtml.
# Sitemap Sitemap: https://www.breitenbuecher.de/sitemap.xml.gzals eigenständiger Abschnitt nennt die URL einer Sitemap-Datei, die z.B: Beispiel von Google regelmäßig ausgelesen werden kann.
Eine Liste mit Namen und Kennungen einzelner Robots können Sie bei selfhtml unter List of User-Agents (Spiders, Robots, Crawler, Browser) finden.
Dort finden Sie auch einen ausführlichen Artikel über weiterführende Details zum Thema robots.txt .
Eine weitere detaillierte Beschreibung finden Sie bei Björn Höhrmann .
Zusätzlich zu den Möglichkeiten das Verhalten von Suchmaschinen-Robots zu kontrollieren, die Ihnen die robots.txt-Datei bietet, können Sie das in geringerem Umfang auch durch eine sog. Metatag-Angabe im Head-Bereich des html-Dokumentes tun.
<meta name="robots" content="noindex"></meta>
Für den Inhalt des Attributes content
sind folgende Werte vorgesehen:
index | Inhalte aus der Datei übermitteln | |
noindex | keine Inhalte der Datei übermitteln | |
follow | Inhalte der Datei übermitteln, Verweisen zu anderen Dateien folgen | |
nofollow | Inhalte der Datei übermitteln, Verweisen zu anderen Dateien nicht folgen |
Ausführliche Informationen zum Gebrauch vom Meta-Tags finden Sie bei Meta-Angaben zum Inhalt (wie üblich) in selfhtml von Stefan Münz.
Sie können die Erreichbarkeit und den richtigen Aufbau einer beliebigen robots.txt-Datei online überprüfen lassen.
Folgen Sie dem Link zm
Robots.txt Checker von Motoricerca.
Dort können Sie per Eingabe einer vollständigen URL (inkl. "robots.txt"-Angabe) eine beliebige robots.txt-Datei überprüfen lassen.