Alles zur robots.txt Datei: Erstellung, Aufbau, Kommandos

Was ist die robots.txt Datei?

robots.txt: Was muss beachtet werden?

Kleine Datei, große Wirkung: Die Text-Datei „robots.txt“ ist in SEO Kreisen keine Unbekannte. Sie ist vielmehr der Türsteher einer Webseite: Denn bei der Suchmaschinenoptimierung (engl. Search Engine Optimization) geht es zwar darum, eine Webseite für Suchmaschinen interessanter zu machen.

robots.txt: Was muss beachtet werden? Was ist die robots.txt Datei?

In manchen Fällen kann es aber von Bedeutung sein, den Webcrawlern (Robots) der Suchmaschinen den Zugang zu verwehren – etwa bei privat genutzten Seiten, sensiblen Login-Bereichen oder wenn sich eine Seite im Aufbau befindet. Und hier kommt robots.txt ins Spiel: Die Datei sagt Google und Co vor dem Betreten einer Webseite ganz genau, in welche Bereiche die Crawler hinein spitzeln dürfen und in welche nicht.

Robot Exclusion Standard

Die Datei robots.txt basiert auf dem sogenannten „Robots Exclusion Standard Protokoll“ von 1994: Darin wurde festgelegt, dass die Robots von Suchmaschinen wie beispielsweise Google, Yahoo und Bing sich nach den Anweisungen der Textdatei robots.txt richten müssen. Sprich: bevor Webseiten überhaupt erfasst werden dürfen, müssen die enthaltenen Vorgaben gelesen werden.

robots.txt in oberster Verzeichnisebene

Die Textdatei robots.txt ist nicht generell auf Webseiten angelegt, sie muss zunächst erstellt werden. Anschließend muss sie in der obersten Ebene im Stammverzeichnis (Root-Verzeichnis) einer Webseite abgelegt werden. Ihre URL lautet demnach: http://[www.domain.de]/robots.txt.

robots.txt in oberster Verzeichnisebene

Wichtig dabei: Der Dateiname muss in Kleinbuchstaben geschrieben werden! Eine Ausnahme bilden jedoch CMS-Systeme: beispielsweise WordPress erstellt eine eigene robots.txt Datei, die Crawlern den Zugriff auf alle Seiten erlaubt, jedoch manuell angepasst werden kann.

robots.txt erstellen

Zur Erstellung der robots.txt wird nicht sonderlich viel Equipment benötigt: Der klassische Texteditor reicht vollkommen, denn sie wird im Plaintext-Format als txt-Datei abgespeichert und ausgelesen. Umso wichtiger sind jedoch Rechtschreibung und Zeichensetzung: schon kleinste Fehler können dazu führen, dass die Befehle missachtet und Webseiten dennoch indexiert werden. Als Hilfe gibt es jedoch kostenfreie Tools zur Erstellung der robots.txt Datei: diese fragen die wichtigsten Informationen ab und erstellen die Datei automatisch.

Aufbau einer robots.txt

Anweisungen von robots.txt bestehen generell aus zwei Teilen: Im ersten Teil ist angegeben, für welche Robots (User Agents) eine Anweisung gilt, im darunter Teil befinden sich die jeweiligen Befehle. Der Aufbau jeder Anweisung ist gleich: Nach den Schlüsselworten „User-agent“ oder „Disallow“ folgt ein Doppelpunkt sowie ein Leerzeichen – und die jeweilige Angabe bzw. der Pfad. Verschiedene Anweisungsblöcke müssen darüber hinaus immer mit einer Leerzeile getrennt werden.

robots.txt: Beispiele

User-agent: *
Disallow:

Zugriff für alle Suchmaschinen erlauben

User-agent: *
Disallow: /

Zugriff für alle Suchmaschinen verbieten

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

Zugriff für einen bestimmten Robot erlauben (hier: Google) und für andere Suchmaschinen verbieten

User-agent: *
Disallow: /das/darf-keiner-sehen/geheim.html

Spezielle Datei für alle Suchmaschinen sperren

User-agent: *
Disallow: /tests/

Verzeichnis für alle Suchmaschinen sperren

User-agent: *
Disallow: /*.pdf$

Dateien mit einer Dateiendung blockieren z. B. alle PDF-Dateien sollen blockiert werden

User-agent: *
Disallow: /*.jpg$
Allow: /ordner/dieses-eine-foto.jpg

Dateien mit einer Dateiendung blockieren und nur eine Datei zulassen, z. B. alle jpg-Dateien sollen blockiert und nur eine bestimmte (/ordner/dieses-eine-foto.jpg) erlaubt werden

Die wichtigsten Kommandos

*

nach User-agent: meint alle Robots

/

nach Disallow: meint alle Daten des Stammverzeichnisses und aller Unterverzeichnisse

(fehlende Angabe)

alles erlaubt

$

Zeilenende

Die wichtigsten Bots bzw. User Agents

Googlebot für Websuche

Googlebot

Googlebot für Bilder

Googlebot-Image

Googlebot für Videos

Googlebot-Video

Yahoo

Slurp

Bing

bingbot

Bedeutung der robots.txt für SEO

Im Hinblick auf die Suchmaschinenoptimierung macht es durchaus Sinn, die Indexierung einer Webseite zu steuern. Auf diese Weise erscheinen irrelevante Seiten, Verzeichnisse und Inhalte nicht in den Suchmaschinen – stattdessen werden nur relevante Seiten sichtbar. Um also den Index „sauber“ zu halten, ist die robots.txt Datei ein willkommenes Werkzeug – sofern sie bis ins Detail durchdacht und fehlerfrei angelegt wurde. Denn haben sich auch nur kleinste Widersprüche eingeschlichen – wurden beispielsweise Verweise auf HTML Seiten gesetzt, die per robots.txt ausgeschlossen sind – dann kann das zu unklaren Suchergebnissen führen, die das Ranking einer Seite wiederum negativ beeinflussen können.

Achtung: robots.txt schützt nicht vor Zugriffen

Im Gegensatz zu Suchmaschinen ignorieren Webbrowser die robots.txt Datei. Das bedeutet: Mithilfe von robots.txt können zwar Suchmaschinen beeinflusst, nicht aber Dateien oder Verzeichnisse vor Zugriffen geschützt werden. Darüber hinaus sind auch nicht sämtliche Robots unbedingt verpflichtet, den Robot Exclusion Standard einzuhalten: Während sich die größeren Suchmaschinen wie Google, Bing oder Yahoo zwar danach richten, ist es nicht ausgeschlossen, dass gesperrte Seiten dennoch gecrawlt werden.

Sie haben eine Frage zum Thema Google Search-Snippets?

Sie möchten mit SEO mehr Klicks und Besucher auf Ihre Webseite holen? Unsere SEO-Agentur berät Sie gerne!