Was ist eine Robots.txt

Wer braucht diese Datei und was macht Sie?

Logo 3S+WebDesign

Infos auf die Schnelle

Die robots.txt ist eine Textdatei, die auf einem Webserver hinterlegt wird. In dieser Datei sind Anweisungen für Crawler hinterlegt. Die Datei wird von diesen Crawlern ausgelesen und die Anweisungen werden berücksichtigt. Was Crawler sind und mehr über die robots.txt folgt auf dieser Seite.



Die robots.txt ist eine Datei, die auf dem Webserver abgelegt wird und zur Verwaltung der Zugriffe durch Suchmaschinen-Crawler genutzt wird. Folglich ist die robot.txt sehr wichtig für die Suchmaschinenoptimierung und die Auffindbarkeit deiner Webseite. Aber auch für die Auslastung der Webseite. Eine Anleitung und Dokumentation dazu gibt es auch hier bei Google.

Mit der robots.txt-Datei kannst du verschiedene Dateitypen beeinflussen und Suchmaschinen mitteilen auf welche URLs der Webpräsenz die sogenannten Crawler zugreifen dürfen. Wichtig zu verstehen ist, dass damit nur Unterseiten vom Crawling ausgeschlossen werden können oder nicht.



Audio, Bilder und Videos lassen sich sozusagen für die Crawler aktivieren oder deaktivieren. So kannst du erlauben oder verhindern, dass deine Mediendaten in den Suchergebnissen von Google erscheinen. Dies ist unter anderem wichtig für das Bilder SEO.

Theoretisch lassen sich mit der robots.txt unwichtige Bild- und Scripte oder Stildateien (CSS Dateien) blockieren. Praktisch versucht zum Beispiel die Suchmaschine Google zu verstehen wie eine Webseite funktioniert. Daher empfiehlt es sich CSS und Javascript nur zu blockieren wenn negative Erfahrungen mit der Verfügbarkeit gemacht wurden.

Möchte man nicht, dass bestimmte einzelne Dateien von einem Crawler überprüft und gegebenenfalls indexiert werden, kann man diese einzeln ausschließen.

Eine ausführliche Liste der Optionen für die Datei findet sich unter anderen hier.



Eine robots.txt kann mit einem einfachen Texteditor,wie zum Beispiel dem von Windows, erstellt werden. Es gibt aber auch im Internet Generatoren und SEO Tools bieten auch die Option der Erstellung einer Robots.txt. Zudem bieten auch einige CMS die Erstellung der Datei an oder erstellen diese automatisch.

  • Die Datei muss als „robots.txt“ betitelt sein.
  • Die Datei muss UFT-8-codiert sein.
  • Es darf nur eine solche Datei auf dem Webspace für die Webseite hinterlegt sein.
  • Auch muss die Datei im Verzeichnis liegen, auf welches die Website verweist, für welche die robots.txt verwendet werden soll.

Die Suchmaschine Google bietet eine einen Online Robots.txt tester für bereits online gestellte Webseiten an: https://www.google.com/webmasters/tools/robots-testing-tool.

Ebenso bieten verschiedene SEO Tool Anbieter Programme zum Überprüfen der Robots.txt an.



Eine robots.text sieht in etwa so aus:

Nun kurz einige Erklärungen, wofür die einzelnen Punkte stehen.

User-agent

In der Zeile user-agent wird der Bot oder Crawler eingetragen. Der bekannteste ist der Google, welcher mit „Googlebot“ adressiert wird. Allerdings gibt es eine vielzahl verschiedenen Crawler aus dem Hause Google und von Konkurrenten, so wie der Bingbot von Microsoft als Beispiel. Crawler werten die Datei aus und befolgen in der Regel die Befehle aus der Datei.

Bild einer Beispiel robots.txt
User-agent steht am Anfang einer robots.txt
Erklärbild für disallow und allow
Disallow und allow in der robots.txt markiert

Die Befehle disallow und allow

Allow (englisch: „erlauben“) ist die Anweisung für die Crawler, das Verzeichnis oder den Dateipfad crawlen zu dürfen.

Disallow bedeutet verbieten oder nicht gestatten und weist dem Crawler an, das Verzeichnis oder den Pfad zu ignorieren.

Noch Fragen offen?

Ich hoffe die Erklärung ist verständlich formuliert. Falls noch Fragen offen sind teilen Sie mir dies gerne mit!



Was passiert wenn ich in der Robots.txt Fehler mache?

Wenn dir kleine Fehler in der robots.txt passieren, passiert normalerweise nichts Schlimmes! Die Web-Crawler ignorieren die falschen oder unvollständigen Anweisungen. Es kann also passieren, dass unfertige Bereiche der Webseite in den Index gelangen, diese lassen sich aber eigentlich auch wieder entfernen!

Wie erstelle ich die robots.txt?

Eine robots.txt kann mit einem einfachen Texteditor, wie dem Editor von Windows erstellt werden. Aber auch SEO Tools und Webseiten bieten Eingabemasken, mit denen die Inhalte einer robots.txt erstellt werden kann.

Nach oben scrollen