robots.txt - Steuerung des Crawling-Verhaltens für SEO

Die Datei robots.txt ist ein wichtiges Werkzeug zur Steuerung des Suchmaschinen-Crawlings. Sie gibt Web-Crawlern wie dem Googlebot Anweisungen, welche Bereiche Ihrer Website von Crawlern besucht werden dürfen und welche nicht. In diesem Artikel erfahren Sie, wie Sie robots.txt korrekt einsetzen, häufige Fehler vermeiden und dadurch Ihre SEO-Performance optimieren.

Grafik mit Text- und Bild-Illustrationen zum Thema robots.txt

Was ist die robots.txt-Datei?

Die robots.txt-Datei ist eine einfache Textdatei, die sich im Root-Verzeichnis einer Website befindet, z. B. www.beispiel.de/robots.txt. Sie dient als erste Anlaufstelle für Suchmaschinen-Crawler und gibt ihnen Anweisungen, welche Seiten sie besuchen dürfen und welche nicht.

Die Datei Robots.txt steuert somit das Crawling durch Suchmaschinen, und nicht direkt die Indexierung. Sie hilft, dass die Bots nicht zu viel Zeit mit unwichtigen oder doppelten Seiten verbringen. Eine fehlerhafte Konfiguration kann dazu führen, dass die Bots wichtige Seiten nicht besuchen und diese deshalb nicht indexiert werden.

Bei den Direktiven in der robots.txt handelt es sich lediglich um Empfehlungen, es gibt keine Garantien, dass sich die Crawler auch an die Vorgaben halten. Die meisten Suchmaschinen beachten jedoch die Vorgaben.

Grafik mit Textillustration: User-agent: *  
Disallow: /intern/  
Allow: /intern/öffentliche-seite.html

Syntax und Aufbau

Die robots.txt-Datei besteht aus einer Reihe von Direktiven, die den Crawlern mitteilen, welche Bereiche der Website sie besuchen dürfen. Eine typische robots.txt-Struktur zeigt das Bild.

Die Datei verbietet allen Crawlern (User-agent: *) den Zugriff auf das Verzeichnis /intern/, erlaubt jedoch den Besuch einer bestimmten Datei in dem Verzeichnis /intern/öffentliche-seite.html.

Direktiven in der robots.txt

Die Anweisungen in einer robots.txt beeinflussen das Verhalten von Crawlern. Die Hauptdirektiven sind folgende:

User-agent: Gibt an, für welchen Suchmaschinenbot die Regel gilt (z. B. Googlebot, Bingbot).
Disallow: Verbietet das Crawling bestimmter Seiten oder Verzeichnisse.
Allow: Ist eine Ausnahme von Ausschlüssen, erlaubt explizit den Zugriff auf bestimmte Inhalte, wenn das übergeordnete Verzeichnis gesperrt ist.
Sitemap: Verweist auf die XML-Sitemap, um Suchmaschinen bei der Indexierung zu helfen.

Grafik mit Textillustration: User-agent: Googlebot  
Disallow: /admin/  
Allow: /admin/public-info.html  
Sitemap: https://www.beispiel.de/sitemap.xml

Beispiel für eine gezielte Steuerung

In dieser robots.txt wird nur Googlebot der Zugriff auf /admin/ untersagt, jedoch der Zugriff auf die Datei /public-info.html in demselben Verzeichnis ist explizit per Allow erlaubt.

Zudem gibt es den Verweis auf die Sitemap, damit die Suchmaschinen relevante Seiten leichter finden.

Grafik mit Textillustration: User-agent: *  
Disallow: /login/  
Disallow: /search/

Ausschluss sensibler oder irrelevanter Inhalte

Nicht alle Seiten einer Website sind für Suchmaschinen relevant. Beispielsweise werden interne Login-Seiten, Suchergebnisseiten, Seiten im Backend-Bereich, Warenkorb-/Checkout-Seiten, temporäre Dateien oder reine Formularseiten vom Crawling ausgeschlossen.

In diesem Beispiel sind Login- und Suchergebnisseiten vom Crawling ausgeschlossen.

Grafik mit Textillustration: User-agent: Googlebot  
Disallow: /archiv/  
Disallow: /temp/

Steuerung des Crawl-Budgets bei großen Websites

Große Websites mit vielen tausend Unterseiten haben ein begrenztes Crawl-Budget – also eine bestimmte Anzahl von Seiten, die der Googlebot pro Besuch crawlt. Durch eine optimierte robots.txt lässt sich sicherstellen, dass die Crawler nur wichtige Inhalte erfassen und unwichtige oder doppelte Seiten ignorieren.

Diese robot-txt verhindert, dass Crawl-Budget für unwichtige temporäre oder veraltete Archiv-Seiten verschwendet wird.

Grafik mit Textillustration: User-agent: *
Disallow: /*?sort=
Disallow: /*&filter=

Umgang mit dynamischen URLs und Filtern

Online-Shops oder Blogs erzeugen oft zahlreiche dynamische URLs durch Filter oder Sortierungen,
z. B. ?sort=preis-aufsteigend. Solche URLs führen zu doppeltem Inhalt und unnötigem Crawling.

Eine Lösung ist es, diese Parameter zu blockieren. Diese robots.txt schließt alle URLs mit den Parametern ?sort= und &filter= vom Crawling aus.

Grafik mit Textillustration: User-agent: *
Disallow: /

Fehlerhafte Blockierung wichtiger Seiten

Ein häufiger Fehler ist das unbeabsichtigte Sperren ganzer Websites. Zum Beispiel verhindert folgende Konfiguration, dass eine Website in Google erscheint.

Die Anweisung in der robot.txt verbietet allen Crawlern den Zugriff auf sämtliche Seiten. Falls dies aus Versehen passiert, kann es zum kompletten Verlust der Rankings führen.

Grafik mit Textillustration: User-agent: *  
Disallow: /  Allow: /blog/

Verzeichnisse mit Allow freigeben

Falls Disallow: / definiert ist, lassen sich wichtige Verzeichnisse explizit mit Allow freigeben.

Best Practices

Indexierung vermeiden: Robots.txt steuert nur das Crawling, nicht die Indexierung. Es kann durchaus sein, dass gesperrte Inhalte dennoch im Index landen, z.B. durch viele Backlinks auf eine URL. Falls eine Seite nicht im Index erscheinen soll, müssen Sie ein noindex-Tag im HTML-Header der Seiten setzen.
Regelmäßige Überprüfung: Prüfen Sie die Datei über das robots.txt-Tester-Tool in der Search Console unter Einstellungen/robots.txt. Gibt es Probleme mit der robots.txt, werden diese dort angezeigt.
Regelmäßige Anpassungen: Änderungen in der Website-Struktur sollten Sie stets in der robots.txt berücksichtigen.

Fazit

Die robots.txt-Datei ist ein leistungsstarkes SEO-Werkzeug zur Steuerung des Suchmaschinen-Crawlings. Sie hilft dabei, irrelevante oder sensible Inhalte auszuschließen, das Crawl-Budget effizient zu nutzen und doppelte Inhalte zu ignorieren.

Durch eine sorgfältige Konfiguration und regelmäßge Überprüfung können Sie sicherstellen, dass die Suchmaschinen die relevanten Inhalte Ihrer Website erfassen und im besten Falle indexieren.

Mehr lesen!

Bleiben Sie auf dem Laufenden mit unserem Blog.

Auch interessant!

Überzeugen Sie sich von unseren Leistungen.

Haben Sie Fragen?

Bild von einem Mann mit kurzen blonden Haaren

Telefon: 0351 44 078 85
E-Mail: E-Mail schreiben