Google Bot Crawler perfekt steuern
Stell dir vor, deine Webseite ist ein riesiges Gebäude. Die Robots.txt ist der Türsteher, der sagt, wer welche Räume betreten darf. Die Sitemap hingegen ist der Grundriss, der den Gästen (den Crawlern) zeigt, wo die interessantesten Zimmer zu finden sind.
In diesem Dreamcodes Ratgeber lernst du, wie du diese beiden Dateien optimal konfigurierst, um dein Crawl Budget zu schonen und sicherzustellen, dass deine wichtigsten Seiten blitzschnell im Google Index landen.
1. Die Robots.txt: Der Türsteher deiner Seite
Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis (Root) deiner Domain liegt (z. B. deinedomain.net/robots.txt). Sie ist das Erste, was ein Bot liest, wenn er deine Seite besucht.
Wichtige Befehle:
- User agent: Bestimmt, für welchen Bot die Regel gilt (zB.
*für alle oderGooglebot). - Disallow: Verbietet das Crawlen bestimmter Verzeichnisse oder Dateien.
- Allow: Erlaubt explizit den Zugriff auf Unterordner in einem gesperrten Verzeichnis.
Best Practice Beispiel:
User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /temp/oeffentlich/
Sitemap: https://dreamcodes.net/sitemap.xml
Wichtig: Die robots.txt ist kein sicheres Mittel, um Seiten vor dem Index zu schützen (dafür nutzt man den noindex Tag). Sie dient primär der Steuerung des Crawl-Verhaltens.
2. Die XML Sitemap: Dein digitaler Inhaltsbericht
Eine XML Sitemap ist eine strukturierte Liste aller URLs deiner Webseite, die indexiert werden sollen. Sie hilft Google besonders dann, wenn du eine sehr große Seite hast oder deine interne Verlinkung noch nicht perfekt ist.
Was gehört in eine gute Sitemap?
- Nur Seiten mit dem Status Code 200 OK.
- Keine Seiten, die auf
noindexstehen. - Keine Weiterleitungen (301) oder Canonical Ziele auf andere URLs.
- Das Datum der letzten Änderung (
<lastmod>), damit Google weiß, wann ein Recrawl nötig ist.
3. Warum ist die Steuerung so wichtig?
- Crawl Budget sparen: Suchmaschinen verbringen nur eine begrenzte Zeit auf deiner Seite. Wenn der Bot Zeit mit unwichtigen Skripten oder Admin-Bereichen verschwendet, übersieht er vielleicht deine neuesten Blogartikel.
- Fehler vermeiden: Verhindere, dass technische Seiten (zB. Warenkörbe oder Suchergebnisseiten) im Index landen und wertvolles Ranking Potenzial verwässern.
- Schnellere Indexierung: Eine Sitemap signalisiert Google sofort: „Hier hat sich etwas geändert, bitte vorbeikommen!“
4. Schritt für Schritt Anleitung
Schritt 1: Robots.txt erstellen und hochladen
Erstelle eine Datei namens robots.txt mit einem Editor. Sperre Verzeichnisse wie /login/ oder /cgi-bin/. Lade sie per FTP in dein Root Verzeichnis hoch.
Schritt 2: XML Sitemap generieren
Die meisten CMS (wie WordPress mit Yoast oder SEO Press) erstellen diese automatisch. Falls du ein eigenes System nutzt, gibt es zahlreiche „Sitemap Generator“ Tools. Die Datei sollte unter /sitemap.xml erreichbar sein.
Schritt 3: In der Google Search Console einreichen
- Logge dich in die Google Search Console ein.
- Gehe links auf den Menüpunkt Sitemaps.
- Gib die URL deiner Sitemap ein (zB.
sitemap.xml) und klicke auf „Senden“. - Prüfe regelmäßig, ob Google Fehler beim Lesen meldet.
5. Häufige Fehler vermeiden
- Sitemap in Robots.txt vergessen: Füge am Ende deiner
robots.txtimmer den Link zur Sitemap hinzu (siehe Beispiel oben). - Wichtige Ressourcen sperren: Achte darauf, dass du per
Disallowkeine CSS oder JavaScript Dateien sperrst, die für das Rendering der Seite wichtig sind. Google muss die Seite „sehen“ können, wie ein Nutzer sie sieht. - Veraltete Sitemaps: Sorge dafür, dass deine Sitemap dynamisch ist und sich automatisch aktualisiert, wenn du neue Inhalte veröffentlichst.
6. Fazit für Dreamcodes Nutzer
Mit einer sauber konfigurierten robots.txt und einer aktuellen sitemap.xml legst du die Schienen für den Erfolg deiner SEO Strategie. Du nimmst den Suchmaschinen die Arbeit ab und stellst sicher, dass deine Energie in die Seiten fließt, die wirklich ranken sollen. Es ist die Basis für eine professionelle Kommunikation mit den Bots von Google, Bing und Co.

