Home
Navigation
Impressum
SEO Welten - Webcoding, Editoren, Scripte und Anwendungen
SEO Welten
Buchempfehlungen
 

robots.txt - Anweisungen für Suchmaschinen erstellen

robots.txt - Anweisungen, Datensätze und Syntax

Übersicht / Seite:

  1. Kleine Einführung (allgemeine Infos)
  2. Generator (zum Erstellen von Anweisungen für eine robots.txt)
  3. HTML-Code zum Einbinden (in statische und dynamische Webseiten)
  4. Anweisungen (mit Beispielen zum Aufbau und zur Syntax)

Allgemeines

Wie bereits in der Einführung bemerkt, eine robots.txt enthält Anweisungen für Crawler. Doch nicht alle Crawler von allen Suchmaschinen halten sich an diesen Anweisungen. Weiterhin schützen diese Anweisungen nicht in jedem Fall vor dem Besuch der Seiten durch den Robots, da diese Anweisungen mehr als Hinweise für Crawler dienen und weniger als Befehle. Häufige Fehleinschätzungen rühren daher, dass die Mehrheit der Webmaster sich praktisch kaum etwas unter einem Crawler und dessen Funktionsweise vorstellen kann.
Ein Crawler, zuweilen auch als Spider, Robot oder einfach nur Bot genannt, ist nun alles andere als ein kleines Männchen, auch kein Programm, welches durch die Leitung gekrochen käme, um einzelne Seiten zu lesen und zu indizieren. Vielmehr handelt es sich bei einem Crawler um eine Anwendung, welche mit einem abgespeckten Browser vergleichbar ist. Der Crawler wählt wie ein User eine URL an und ruft die zu der Zieladresse gehörenden Datei wie in einem einfachen Browser auf, nur das keine visuelle Ausgabe erfolgt.

Wie ein User, der bei jeder Website zuerst die Datenschutzbestimmungen, Nutzungsbedingungen und AGB aufrufen und lesen sollte, so sollten auch die Crawler von Suchmaschinen zu Beginn die Anweisungen in der robots.txt auslesen. Nur kein User (oder praktisch kaum ein User), der einem Link von einer anderen Webseite folgt, wird nun auf der sich neu öffnenden Webseite zuerst nach den Nutzungsbedingen suchen. Ähnlich ergeht es auch den Bots von Suchmaschinen. Alle im Quelltext einer externen Webseite gefunden URLs werden erst einmal gesammelt, dann aufgerufen und gegebenenfalls indiziert. Da der Bot zu diesem Zeitpunkt die robots.txt der externen Webseite noch nicht aufgerufen hat, kann es passieren, dass eine Webseite trotz anders lautender Anweisungen in der robots.txt indiziert wird.
Etwas sicherer verhält es sich mit den Anweisungen, die per Meta-Tag robots im Head einer Seite notiert werden, da an diesen auch kein Bot vorbei kommt, der deinen Verweis zur Seite bzw. deren URL auf einer externen Seite fand.

Aufbau von Anweisungen

Der Aufbau einer robots.txt ist verhältnismäßig einfach gestickt, ebenfalls die Syntax der Anweisungen. An Schlüsselwörter kommen eigentlich nur User-agent und Disallow in Betracht, jeweils gefolgt von einem Doppelpunkt. Zuweilen wird noch Allow als anweisendes Schlüsselwort verwendet, welches nach de.selfhtml.org jedoch niemals definiert wurde. Die Bots von Google, Bing und Yahoo halten sich nach unserem gegenwärtigen Kenntnisstand an Anweisungen, die mit dem Schlüsselwort Allow eingeleitet werden.
Die eigentlichen Anweisungen werden in Datensätze zusammengefasst, und beginnen in der jeweils ersten Zeile mit dem Schlüsselwort User-agent. Als Platzhalter können Sternchens (Wildcards) verwendet werden. Auch hier sollte ein Webmaster bedenken, dass möglicherweise nicht alle Bots von allen Suchmaschinen mit in Disallow-Anweisungen verwendeten Platzhaltern richtig umgehen können, nur Google, Bing und Yahoo sollten es schon können.

Nachfolgend einige Beispiele. Im ersten Beispiel dient ein Sternchen als Platzhalter für alle beliebigen Bots, für die weder eine auszuschließende Datei noch ein auszuschließendes Verzeichnis angegeben wurde und somit allen Bots alles erlaubt wird.

User-agent: *
Disallow:

Im zweiten Beispiel dient ebenfalls ein Sternchen als Platzhalter für alle beliebigen Crawler, nur dass in diesem Fall allen Bots der Zugang für alle /Verzeichnisse und alle /Dateien untersagt wird.

User-agent: *
Disallow: /

Im dritten Beispiel wird dem examplebot das Crawlen von allen Dateien untersagt, allen anderen Bots hingegen gestattet.

User-agent: examplebot
Disallow: /

User-agent: *
Disallow:

Im vierten Beispiel wird allen Bots das Crawlen des Verzeichnisses /privat/ und der Datei /privat.html untersagt.

User-agent: *
Disallow: /privat/
Disallow: /privat.html

Im fünften und letzten Beispiel wird allen Bots das Crawlen von Dateien untersagt, welche die Zeichenfolge fische im Pfad enthalten. Ausgeschlossen würden Dateien mit Pfaden wie /katzenfische.html oder /nachwuchs.php?fische=katzen. Für die Richtigkeit der Syntax übernehmen wir zwar weder eine Garantie noch eine Gewährleistung, allerdings können wir versichern, dass alle alle bisherigen Test ohne Probleme verliefen. Dennoch würden wir Ihnen vor der Verwendung einer robots.txt mit Anweisungen, die Platzhalter enthalten, dazu raten, die Anweisungen noch einmal zu überprüfen, zum Beispiel mit Hilfe der Google Webmaster Tools. Mehr zur Syntax und zum Gebrauch von Platzhaltern auch unter: Robots.txt Specifications

User-agent: *
Disallow: /*fische*

robots.txt Generator « zurück
 

 
Navigation

Finden und
gefunden werden ...


Zukunftsaussichten


- Optimierung -

 

Webcoding

Übersicht


Web Services


Tutorials &
diverse Listings

und vieles mehr...


Copyright © 2006 - Verlag Horst Müller - Stendal | Datenschutz | Nutzungsbedingungen