Robots.txt

TL;DR

Robots.txt ist ein Ausschlussprotokoll für Webcrawler, um bestimmte Seiten, Ordner oder Dateien auf einer Website zu ignorieren, und wird zur Verbesserung der Suchmaschinenoptimierung verwendet.

Über Robots.txt

Robots-Ausschlussnorm, auch als Robots-Ausschlussprotokoll (Robots.txt kurz) bezeichnet, ist eine Datei, die Suchmaschinenspider wissen lässt, welche Webseiten oder Abschnitte einer Website nicht gecrawlt werden sollen. Es ist wichtig, dass die robots.txt korrekt eingerichtet ist, da ein einzelner Fehler dazu führen kann, dass eine ganze Website von Suchmaschinen deindexiert wird.

Warum ist Robots.txt wichtig?

Robots.txt ist ein wichtiger Bestandteil von SEO, da alle großen Suchmaschinen diesen Ausschlussstandard erkennen und befolgen. Die Mehrheit der Websites benötigt dieses Protokoll nicht, da Google nur die wichtigen Seiten einer Website indiziert und den Rest weglässt (z.B. doppelte Seiten), aber es gibt einige Fälle, in denen es empfohlen wird, robots.txt zu verwenden. Der Ausschlussstandard für Roboter kann verwendet werden, um die Indexierung von Multimedia-Ressourcen (z.B. Bilder) zu verhindern, nicht öffentliche Seiten (z.B. Mitglieder-Login-Seiten) zu blockieren und das Crawl-Budget zu maximieren.

Beispiele für Robot.txt-Dateien

Das Basisformat für die Datei robots.txt ist: Benutzer-Agent: Verbieten: Wenn der User-Agent der Name des angesprochenen Roboters ist und der Teil, der nach dem "Verbieten" kommt, den Namen der Webseite, des Ordners oder der Datei enthält, die der Roboter beim Besuch einer Website ignorieren muss. Ein Sternchen (*) kann anstelle des Namens eines bestimmten Bot verwendet werden, wenn man alle Roboter ansprechen möchte, die die Website besuchen könnten. In diesem Beispiel werden die Crawler aufgefordert, die genannten Verzeichnisse nicht einzugeben: Benutzer-Agent: * Verbieten: /tmp/ Verbieten: /junk/ In diesem Fall werden Crawler informiert, um eine bestimmte Datei zu vermeiden: Benutzer-Agent: * Verbieten: /directory/file.html