Was wäre, wenn du einen gut besuchten Fachblog betreibst. Jeden Morgen schaust du in dein Analyse-Dashboard und siehst etwas Seltsames: Der organische Traffic stagniert, obwohl deine Inhalte besser sind als je zuvor. Gleichzeitig fressen unbekannte Bots locker 40 Prozent deiner Serverbandbreite. Und wenn du in LLM Chats wie ChatGPT oder Perplexity nach deinem Fachgebiet suchst, taucht der Konkurrent auf, nicht du.
Willkommen in der Realitaet des Jahres 2026, in der LLM-Crawler das naechste grosse Kopfzerbrechen fuer Entwickler und Website-Betreiber geworden sind. Die Frage ist nicht mehr nur, wie man bei Google rankt. Die Frage lautet: Wen lasse ich rein, wen halte ich draussen, und wie stelle ich sicher, dass die richtigen KI-Systeme meinen Inhalt kennen und zitieren?
Dieser Dreamcodes Guide beantwortet genau das. Vollstaendig, praxisnah und ohne den ueblichen Fachjargon Nebel anderswo.
| Kurze Antwort fuer eilige Leser Es gibt zwei Typen von KI-Crawlern: Trainings-Crawler (zB. GPTBot, ClaudeBot, CCBot) und Such-Crawler (z.B. OAI-SearchBot, PerplexityBot, Claude-SearchBot). Trainings-Crawler konsumieren deine Inhalte fuer KI-Modell-Training und liefern dir kaum Gegenleistung. Such-Crawler indexieren deine Inhalte fuer KI-Antworten und sorgen fuer Zitate und Sichtbarkeit. Die optimale Strategie fuer die meisten Websites im Jahr 2026 lautet: Such-Crawler erlauben, Trainings-Crawler selektiv blockieren oder drosseln. robots.txt ist der erste Schutzwall. WAF-Regeln und Rate Limiting auf Serverebene sind der zweite, deutlich effektivere. |
Was du in diesem Dreamcodes Guide lernst:
- Wir zeigen dir, welche LLM Crawler es gibt und was sie konkret tun
- Wie du nuetzliche KI Scraper von schaedlichen Daten Vampiren (sie wollen nur deine Daten) unterscheidest
- Wie du robots.txt korrekt konfigurierst, ohne dich selbst aus KI Antworten auszusperren
- Wie du Rate Limiting auf Server Ebene (Nginx, Apache, Cloudflare WAF) umsetzt
- Auch welche Fehler die meisten Entwickler 2026 machen, und wie du sie vermeidest
- Und zum Abschluss, was llms.txt ist und ob du sie wirklich brauchst
1. Die LLM Crawler Landschaft 2026: Wer ist wer?
Bevor wir anfangen, irgendwelche Regeln aufzustellen, muessen wir verstehen, mit wem wir es eigentlich zu tun haben. Denn nicht jeder Bot, der mit KI in Verbindung steht, ist automatisch ein Problem. Genau wie im echten Leben gibt es auch unter den Crawlern Gute, Schlechte und ziemlich HinterhaeItige.
1.1 Die drei Grundtypen von LLM-Crawlern
Experten teilen die KI Crawler Welt aktuell in drei Kategorien ein. Das Verstaendnis dieser Unterscheidung ist absolut zentral fuer alles, was danach kommt.
Typ 1: Trainings-Crawler
Diese Bots crawlen deine Inhalte, um sie in KI Modell Training einzuspeisen. Das bedeutet: Was sie heute lesen, koennte morgen im Gehirn eines grossen Sprachmodells stecken. Fuer dich als Website Betreiber liefern sie keine direkte Gegenleistung. Kein Traffic. Kein Klick. Kein Zitat. Sie nehmen und geben nichts zurueck.
Wichtigste Vertreter:
- GPTBot (OpenAI): Crawlt fuer das Training von GPT-Modellen
- ClaudeBot (Anthropic): Crawlt fuer Claude-Training, Volumen stieg Anfang 2026 um ca. 800 Prozent
- CCBot (Common Crawl): Open-Source-Crawler, der viele LLM-Trainingsdatensaetze speist
- Google-Extended (Google): Fuer Gemini-Training, unabhaengig von normalem Googlebot
- Applebot-Extended (Apple): Fuer Apple Intelligence, 2026 stark angestiegen
- Meta-ExternalAgent (Meta): Fuer Llama und andere Meta KI Modelle
Typ 2: Such Crawler und Retrieval-Bots
Diese Bots indexieren deine Inhalte, damit KI-Systeme sie bei Nutzeranfragen in Echtzeit abrufen und zitieren koennen. Wenn ChatGPT eine Antwort liefert und dabei auf deine Website verweist, war vorher einer dieser Bots auf deiner Seite. Sie sind die Boten, die dir KI-Sichtbarkeit bescheren.
Wichtigste Vertreter:
- OAI-SearchBot (OpenAI): Indexiert fuer ChatGPT Search, sendet Referral-Traffic
- Claude-SearchBot (Anthropic): Indexiert fuer Claudes Retrieval-System
- PerplexityBot (Perplexity): Hoch-frequent, fokussiert auf News und Authority-Blogs
- Amazonbot (Amazon): Indexiert fuer Alexa und AWS-KI-Dienste
Typ 3: Nutzer getriggerte Fetcher
Diese Bots werden aktiv, wenn ein echter Nutzer eine Frage stellt und das KI-System im Echtzeit-Modus eine bestimmte Seite laden muss, um eine aktuelle Antwort zu liefern. Sie sind quasi die Assistenten, die auf Befehl arbeiten.
Wichtigste Vertreter:
- ChatGPT-User (OpenAI)
- Claude-User (Anthropic)
- Perplexity-User (Perplexity)
Uebersichtstabelle: Die wichtigsten LLM-Crawler auf einen Blick
| Bot-Name | Unternehmen | Typ | Respektiert robots.txt | Sendet Traffic |
| GPTBot | OpenAI | Training | Ja | Nein |
| OAI-SearchBot | OpenAI | Suche / Retrieval | Ja | Ja |
| ChatGPT User | OpenAI | Nutzer Fetcher | Ja | Ja |
| ClaudeBot | Anthropic | Training | Ja | Nein |
| Claude SearchBot | Anthropic | Suche / Retrieval | Ja | Ja |
| Claude User | Anthropic | Nutzer Fetcher | Ja | Ja |
| PerplexityBot | Perplexity | Suche / Retrieval | Ja | Ja |
| Perplexity User | Perplexity | Nutzer Fetcher | Ja | Ja |
| Google Extended | Training (Gemini) | Ja | Nein | |
| Applebot Extended | Apple | Training | Ja | Nein |
| CCBot | Common Crawl | Training | Meistens | Nein |
| Bytespider | ByteDance | Daten-Scraper | Oft nicht | Nein |
| Meta ExternalAgent | Meta | Training / Suche | Ja | Selten |
1.2 Das Crawl to Referral Problem: Die erschreckenden Zahlen
Hier ist eine Zahl, die man sich merken sollte: Laut Cloudflares Analyse vom Juni 2025 kommt Googlebot auf ein Crawl zu Referral Verhaeltnis von etwa 14 zu 1. Das heisst, Googlebot crawlt eine Seite 14 Mal und schickt dafuer einen Besucher. Klingt fair.
OpenAI lag zur selben Zeit bei 1.700 zu 1. Anthropic bei 73.000 zu 1.
Das bedeutet: ClaudeBot crawlt deine Seite 73.000 Mal, bevor ein einziger Besucher ueber Claude auf deine Website kommt. Kein Wunder, dass Publisher anfangen, diese Bots auszusperren. Das ist kein fairer Austausch, das ist digitale Einseitigkeitsstrategie.
Seit Anfang 2026 ist ClaudeBot Volumen nochmals massiv gestiegen, weil Anthropic seine Web Such API skaliert hat. Das macht die Entscheidung, welchen KI Crawlern man Zugang gewaehrt, noch kritischer.
2. robots.txt im KI Zeitalter: Mehr Macht als du denkst, aber nicht grenzenlos
2.1 Wie robots.txt grundsaetzlich funktioniert
Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis deiner Website liegt. Sie teilt Crawlern mit, welche Bereiche sie besuchen duerfen und welche nicht. Das Protokoll dahinter heisst Robots Exclusion Protocol, und es existiert seit 1994. Neu ist, dass jetzt auch KI-Unternehmen eigene Bots haben, die du gezielt steuern kannst.
Die Syntax ist simpel: Du definierst einen Agenten (User-agent) und gibst ihm per Disallow oder Allow-Direktive den Zugang zu bestimmten Pfaden. Wichtig zu wissen: robots.txt ist kein technischer Sperrriegel, sondern eine Konvention. Seriose Crawler wie GPTBot, OAI-SearchBot, PerplexityBot und Co. halten sich daran. Unseriose Scraper wie Bytespider manchmal nicht.
2.2 Die Schluessel Strategie: Training blockieren, Suche erlauben
Das ist das Herzstueck dieses Guides, also pass jetzt gut auf. Du kannst denselben Anbieter unterschiedlich behandeln. OpenAI hat zum Beispiel zwei verschiedene Bots: GPTBot crawlt fuer das Modell Training, OAI SearchBot crawlt fuer ChatGPT Search. Du kannst GPTBot blockieren, OAI SearchBot aber erlauben. Dann profitierst du von KI Sichtbarkeit, ohne deine Daten fuer das naechste GPT Modell herzugeben.
Dasselbe gilt fuer Anthropic: ClaudeBot fuer Training, Claude SearchBot fuer Retrieval. Unabhaengig kontrollierbar.
| Wichtig: robots.txt ist rueckwirkungslos Wenn du ClaudeBot heute blockierst, bedeutet das nicht, dass deine Inhalte aus bestehenden Trainingsdaten verschwinden. Modelle wurden bereits mit deinen frueheren Inhalten trainiert. Blocking ist eine vorwaertsgerichtete Massnahme, kein Loeschmechanismus. |
2.3 Die drei Strategien und wann du welche nutzt
Strategie A: Offen fuer alle KI-Bots
Du erlaubst alle grossen KI-Crawler, sowohl Trainings als auch Such-Bots. Diese Strategie macht Sinn, wenn du maximale KI-Sichtbarkeit willst und bereit bist, deine Inhalte auch fuer Modell-Training zur Verfuegung zu stellen. Typisch fuer B2B SaaS, Medienunternehmen und Berater, deren Geschaeft auf Sichtbarkeit beruht.
Strategie B: Selektiv (empfohlen fuer die meisten)
Du erlaubst Such Bots, die dir Zitate und Sichtbarkeit bringen, blockierst aber reine Trainings-Crawler. Das ist der sweet spot fuer Entwickler, Publisher und Unternehmen, die KI-Sichtbarkeit wollen, aber keine Datenbasis fuer fremde Modelle werden moechten.
Strategie C: Komplett blockiert
Du sperrst alle KI Crawler. Das macht Sinn, wenn dein Content stark proprietaer ist, du in einer Branche mit strengen Datenschutzanforderungen arbeitest oder du keine KI Praesenz anstrebst. Sei dir bewusst: Wenn du Such-Bots blockierst, existierst du in KI Antworten nicht. Das ist ein echter Wettbewerbsnachteil in einer Welt, in der immer mehr Nutzer ihre Fragen an ChatGPT oder Perplexity stellen statt an Google.
2.4 Die robots.txt Konfiguration fuer Strategie B (selektiv)
Hier ist eine vollstaendige, kommentierte robots.txt-Konfiguration fuer die empfohlene selektive Strategie. Du kannst sie direkt kopieren und an deine Beduerfnisse anpassen.
| # ============================================================= # robots.txt – Stand: Juni 2026 # Strategie: Such-Bots erlaubt / Training-Bots gesperrt # ============================================================= # — KI-Suche und Retrieval (erlaubt, sorgt fuer Zitate) — User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: Claude-SearchBot Allow: / User-agent: Claude-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: / User-agent: Amazonbot Allow: / # — KI-Training (gesperrt, kein direkter Gegenwert) — User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: CCBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: Meta-ExternalAgent Disallow: / # — Aggressiver Scraper (blockieren) — User-agent: Bytespider Disallow: / # — Sensible Bereiche fuer alle sperren — User-agent: * Disallow: /admin/ Disallow: /api/internal/ Disallow: /staging/ Disallow: /login/ Disallow: /checkout/ # Standard-Suchmaschinen weiter erlauben User-agent: Googlebot Allow: / User-agent: bingbot Allow: / Sitemap: https://example.com/sitemap.xml |
2.5 Crawl Delay: Den Rhythmus vorgeben
Viele Entwickler vergessen die Crawl Delay Direktive. Sie teilt einem Bot mit, wie viele Sekunden er zwischen zwei Anfragen warten soll. Das ist kein hartes Limit, sondern ein Hinweis, den gut artige Bots respektieren.
Fuer gut artige KI-Bots, die du erlaubst, aber nicht deinen Server ueberschwemmen willst:
| User-agent: PerplexityBot Allow: / Crawl-delay: 2 User-agent: OAI-SearchBot Allow: / Crawl-delay: 1 |
Merk dir: Crawl Delay funktioniert nur bei Bots, die sich daran halten. Fuer Bots, die robots.txt ignorieren, brauchst du echtes Rate Limiting auf Server Ebene, dazu kommen wir gleich.
3. Rate Limiting auf Server Ebene: Der echte Schutzwall
Hier kommen wir zu dem Teil, den die meisten robots.txt Guides weglassen, obwohl er entscheidend ist. robots.txt ist eine Hoeflichkeitsgeste. Rate Limiting ist ein Schloss.
Der Unterschied: Ein gut artiger Bot wie GPTBot oder PerplexityBot wird deine robots.txt lesen und beachten. Ein aggressiver Scraper wie Bytespider oder diverse anonyme Daten Harvester werden das nicht tun. Gegen die hilft nur technische Durchsetzung auf Server Ebene.
3.1 Nginx: Rate Limiting fuer KI Bots
Nginx ist der am weitesten verbreitete Webserver, deshalb starten wir hier. Das Grundprinzip ist der Leaky Bucket Algorithmus: Stell dir einen Eimer vor, der einen kleinen Abfluss hat. Anfragen tropfen rein, laufen kontrolliert ab. Wenn zu viel auf einmal reinkommt, laeuft er ueber, und neue Anfragen werden abgelehnt.
Grundkonfiguration fuer KI Crawler
Zuerst definierst du Rate Limit Zonen in deinem nginx.conf (im http-Block):
| http { # Rate-Limit-Zonen fuer verschiedene Bot-Typen limit_req_zone $binary_remote_addr zone=ai_bots:10m rate=6r/m; limit_req_zone $binary_remote_addr zone=aggressive_bots:10m rate=2r/m; limit_req_zone $binary_remote_addr zone=normal_traffic:10m rate=60r/m; # Map: User-Agent auf Bot-Typ mappen map $http_user_agent $bot_type { default ’normal‘; ‚~*GPTBot‘ ‚ai_training‘; ‚~*ClaudeBot‘ ‚ai_training‘; ‚~*CCBot‘ ‚ai_training‘; ‚~*Google-Extended‘ ‚ai_training‘; ‚~*PerplexityBot‘ ‚ai_search‘; ‚~*OAI-SearchBot‘ ‚ai_search‘; ‚~*Claude-SearchBot‘ ‚ai_search‘; ‚~*Bytespider‘ ‚aggressive‘; ‚~*MJ12bot‘ ‚aggressive‘; } } |
Dann fuegest du in deinem Server Block die entsprechenden Regeln hinzu:
| server { listen 80; server_name example.com; location / { # Aggressive Bots hart blockieren if ($bot_type = ‚aggressive‘) { return 403; } # Trainings-Crawler drosseln (6 Requests pro Minute) if ($bot_type = ‚ai_training‘) { limit_req zone=ai_bots burst=2 nodelay; } # Such-Bots etwas lockerer behandeln (10 Req/min) if ($bot_type = ‚ai_search‘) { limit_req zone=normal_traffic burst=5 nodelay; } # 429-Response mit Retry-After Header limit_req_status 429; try_files $uri $uri/ =404; } } |
Vollstaendige User Agent Blockierung fuer Bytespider
Fuer Bots, die du komplett blockieren willst, ist ein einfacher Return-Block die sauberste Loesung:
| # Im http oder server Block: map $http_user_agent $blocked_bot { default 0; ‚~*Bytespider‘ 1; ‚~*SemrushBot‘ 1; # Optional, je nach Bedarf ‚~*AhrefsBot‘ 1; # Optional, je nach Bedarf } server { if ($blocked_bot) { return 403 ‚Bot access denied‘; } } |
3.2 Apache: Die .htaccess Alternative
Wer auf Apache setzt, kann per .htaccess aehnliche Regeln setzen. Das ist weniger performant als Nginx, funktioniert aber zuverlaessig auf Shared Hosting Umgebungen, auf denen man keinen vollstaendigen Nginx Zugriff hat.
| <IfModule mod_rewrite.c> RewriteEngine On # Bytespider blockieren RewriteCond %{HTTP_USER_AGENT} Bytespider [NC] RewriteRule .* – [F,L] # CCBot blockieren RewriteCond %{HTTP_USER_AGENT} CCBot [NC] RewriteRule .* – [F,L] </IfModule> # Alternativ mit mod_setenvif: <IfModule mod_setenvif.c> SetEnvIfNoCase User-Agent ‚GPTBot‘ bad_bot SetEnvIfNoCase User-Agent ‚CCBot‘ bad_bot SetEnvIfNoCase User-Agent ‚Bytespider‘ bad_bot Deny from env=bad_bot </IfModule> |
3.3 Cloudflare WAF: Rate Limiting ohne Serverzugriff
Cloudflare ist fuer viele die einfachste Loesung, weil Rate Limiting und Bot Management ueber ein Dashboard konfiguriert werden koennen, ganz ohne in Konfigurationsdateien herumzuwuehlen. Ausserdem wird Traffic an der Edge abgefangen, bevor er den Server ueberhaupt erreicht, was Ressourcen spart.
| Achtung: Cloudflares neue Rulesets API Seit dem 15. Juni 2025 ist die alte Rate Limiting API von Cloudflare abgekuendigt. Du musst die neue Rulesets API verwenden. Bestehende Regeln wurden automatisch migriert, aber Terraform-Ressourcen und Automationen muessen aktualisiert werden. |
Cloudflare WAF Regel fuer KI Crawler
Im Cloudflare Dashboard unter Security dann WAF dann Custom Rules kannst du folgende Regel erstellen:
| # Beispiel-Regel in Cloudflares Wirefilter Syntax # Trainings-Crawler drosseln (Rate Limiting) (http.user_agent contains „GPTBot“ or http.user_agent contains „ClaudeBot“ or http.user_agent contains „CCBot“ or http.user_agent contains „Google-Extended“) => Action: Rate Limit, Threshold: 30 Requests/Minute # Aggressive Bots blockieren (http.user_agent contains „Bytespider“) => Action: Block # Fuer Managed Rules: AI Crawl Control unter Security > Bots aktivieren |
Cloudflare bietet seit 2025 auch ein verwaltetes AI Crawl Control Feature unter Security dann Bots, das automatisch bekannte KI-Crawler identifiziert und dir einfache Toggle Optionen gibt. Das ist der schnellste Weg fuer nicht technische Nutzer.
3.4 ModSecurity: Die Firewall fuer Profis
ModSecurity ist eine Open Source Web Application Firewall fuer Apache und Nginx. Sie ist maechtig, erfordert aber mehr Konfigurationsaufwand. Dafuer kannst du damit sehr granulare Regeln definieren, zum Beispiel Rate Limiting per User-Agent mit Retry-After-Header.
| # ModSecurity-Regel fuer GPTBot Rate Limiting SecRule REQUEST_HEADERS:User-Agent „@contains GPTBot“ \ „id:1001,phase:1,pass,nolog,setvar:ip.gptbot_requests=+1,expirevar:ip.gptbot_requests=60“ SecRule IP:GPTBOT_REQUESTS „@gt 30“ \ „id:1002,phase:1,deny,status:429,msg:’GPTBot rate limit exceeded‘,\ setResponseHeader:Retry-After=60″ |
Beachte: Shared Hosting Umgebungen unterstuetzen meist keine eigenen ModSecurity Regeln. Dort bieten sich .htaccess Bloecke oder ein Upgrade auf VPS an.
4. Das GEO-Dilemma: Datenschutz vs. KI Sichtbarkeit
Jetzt kommen wir zum philosophischen Kern des Ganzen. Du willst deine Daten schuetzen. Aber du willst auch in ChatGPT, Perplexity und Google AI Overviews gefunden werden. Das ist ein echter Widerspruch, und es gibt keine perfekte Antwort. Aber es gibt kluge Entscheidungen.
4.1 Was ist GEO und warum ist es 2026 so wichtig?
GEO steht fuer Generative Engine Optimization. Der Begriff wurde 2023 von Forschern der Princeton University gepraegte und beschreibt die Optimierung von Inhalten fuer KI generierte Suchantworten statt fuer traditionelle Suchrankings.
Warum ist das relevant? Laut Gartner soll das traditionelle Suchvolumen 2026 um etwa 25 Prozent zurueckgehen, weil Nutzer ihre Fragen direkt an KI Systeme stellen. Google AI Overviews erscheinen bei 30 bis 60 Prozent aller Suchanfragen. Wer in diesen Antworten nicht vorkommt, verliert sichtbar Marktanteile.
Und hier liegt das Dilemma: Wer Such Crawler wie OAI-SearchBot oder PerplexityBot blockiert, entfernt sich selbst aus KI Antworten. Wer Trainings-Crawler wie GPTBot oder ClaudeBot erlaubt, speist seine Inhalte in Modelle ein, ohne direkten Gegenwert.
4.2 Der Entscheidungsbaum: Was passt zu mir?
Schritt 1: Ist KI Sichtbarkeit wichtig fuer mein Geschaeft?
- Ja, KI Suche ist ein wichtiger Kanal: Erlaubt Such-Crawler, entscheide dann bei Training.
- Nein, klassische SEO reicht mir: Kannst du selektiv vorgehen und Training strikter handhaben.
Schritt 2: Habe ich proprietaere Inhalte, die ich schuetzen will?
- Ja, Inhalte sind ein Wettbewerbsvorteil: Training-Crawler blockieren.
- Nein, Inhalte sind Marketing: Erwaege, auch Training-Crawler zu erlauben fuer maximale Praesenz.
Schritt 3: Habe ich Server Performance Probleme durch Bot Traffic?
- Ja: Rate Limiting auf allen KI-Crawlern, auch gut-artigen, kombiniert mit robots.txt Crawl Delay.
- Nein: robots.txt Steuerung reicht vorerst, Logs im Blick behalten.
| Das Sichtbarkeits Risiko beim Blockieren Wenn du Such-Bots fuer sechs Monate blockierst und dann wieder freigibst, tauchst du nicht sofort wieder in KI-Antworten auf. LLMs cachen ihre Quellen. Es braucht Zeit, bis du wieder als zitierfaehige Quelle erkannt wirst. Konkurrenten, die in der Zwischenzeit die Zitier Slots belegt haben, sind schwer zu verdraengen. Entscheide also bedacht und dokumentiere deine Entscheidung. |
4.3 Technische Voraussetzung fuer GEO: Crawlbarkeit sicherstellen
Bevor du irgendetwas anderes optimierst, muss sichergestellt sein, dass KI-Crawler deine Inhalte ueberhaupt lesen koennen. Das klingt trivial, ist es aber nicht.
Die haeufigsten technischen GEO Fehler:
- Cloudflare blockiert KI-Bots automatisch: Viele Cloudflare Standardkonfigurationen sperren KI-Crawler. Pruefe unter Security dann Bots, ob Bot Fight Mode oder Super Bot Fight Mode aktiv ist und Known Bots blockiert.
- Client-Side Rendering: KI-Crawler fuhren in der Regel kein JavaScript aus. Wenn deine Inhalte dynamisch per JavaScript geladen werden, sind sie fuer KI-Systeme unsichtbar. Server-Side Rendering oder statisches HTML sind Pflicht.
- Inhalte hinter Login Mauern: Offensichtlich, aber haeufig vergessen. Alles hinter Authentifizierung ist fuer KI-Crawler unerreichbar.
- 404 Fehler und Redirect-Ketten: Technische Fehler wiegen fuer KI-Crawler schwerer als fuer Google, weil sie weniger robust mit Fehlern umgehen.
5. llms.txt und ai.txt: Die neuen Dateiformate erklaert
Du hast vielleicht von llms.txt oder ai.txt gehoert. Diese Konzepte schwirren 2026 durch die SEO Diskussion, und es lohnt sich, kurz zu klaeren, was sie wirklich koennen und was nicht.
5.1 Was ist llms.txt?
llms.txt ist ein vorgeschlagener Standard, der aehnlich wie robots.txt im Root-Verzeichnis liegt. Der Gedanke dahinter: Du legst eine strukturierte Markdown Datei an, die KI-Systemen sagt, wie sie deine Website verstehen sollen. Du kannst auf wichtige Seiten verlinken, Zusammenfassungen geben und Hinweise zur Struktur liefern.
Klingt sinnvoll. Aber der Haken: Aktuell gibt es keinen empirischen Beleg, dass llms.txt die GEO Sichtbarkeit verbessert. Die grossen LLMs ignorieren diesen Standard aktuell weitgehend. Es ist eher ein zukunftsorientiertes Signal als eine heute wirksame Massnahme.
5.2 Was ist ai.txt?
ai.txt ist ein weitergehender Ansatz, der versucht, purpose based scraping zu steuern. Das heisst: Du gibst nicht nur vor, wer crawlen darf, sondern wozu deine Daten verwendet werden duerfen. Du kannst zum Beispiel Retrieval erlauben und Training verbieten, mit einem einzigen einheitlichen Standard statt dutzender einzelner User-Agent-Eintraege.
Auch hier gilt: Rechtlich und technisch ist dieser Standard 2026 noch nicht verbindlich. Kein LLM Anbieter ist verpflichtet, ihn zu respektieren. Aber als ergaenzende Dokumentations und Signalschicht schadet er nicht.
5.3 Empfehlung: Prioritaeten setzen
Fuer die meisten Website-Betreiber gilt 2026: robots.txt korrekt konfigurieren hat viel mehr messbaren Einfluss als llms.txt zu implementieren. Wenn du beides tun moechtest, fang mit der robots.txt an. llms.txt ist ein Nice to have fuer technisch engagierte Teams, kein Must have.
6. Server Log-Analyse: Wer crawlt wirklich?
Bevor du Regeln implementierst, solltest du wissen, was auf deinem Server tatsaechlich passiert. Viele Entwickler stellen fest, dass sie Bots blockieren, von denen sie nie gehoert haben, waehrend die echten Performance Fresser ungeprueft durchkommen.
6.1 Bot-Traffic aus Server Logs extrahieren
Mit einem einfachen Bash Kommando kannst du aus deinen Nginx Logs extrahieren, welche User Agents am haeufigsten auftauchen:
| # Top 20 User-Agents aus Nginx-Logs awk ‚{print $12}‘ /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -20 # Nur Bot-Traffic filtern (Zeilen mit ‚bot‘ oder ‚crawler‘) grep -i ‚bot\|crawler\|spider‘ /var/log/nginx/access.log \ | awk ‚{print $12}‘ | sort | uniq -c | sort -rn | head -30 # GPTBot-Anfragen der letzten 24 Stunden zaehlen grep ‚GPTBot‘ /var/log/nginx/access.log \ | awk ‚$4 > „[$(date –date=yesterday +%d/%b/%Y)“‚ | wc -l |
6.2 IP Adressen verifizieren
Ein Bot kann einen beliebigen User Agent-String behaupten. Wenn du sichergehen willst, dass ein Crawler, der behauptet GPTBot zu sein, wirklich von OpenAI kommt, musst du die IP Adresse verifizieren. Die grossen Anbieter veroeffentlichen ihre IP Ranges als maschinenlesbare JSON Dateien.
| # OpenAI IPs pruefen curl https://openai.com/gptbot-ranges.txt # Google IPs pruefen (DNS-Methode) host <IP-Adresse> # Ergebnis sollte auf googlebot.com enden # Anthropic veroeffentlicht IP-Ranges im Support-Bereich # https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-the-web-and-how-can-site-owners-block-the-crawler |
Diese Methode ist besonders wichtig, wenn du vermutest, dass sich ein aggressiver Scraper als legitimer Bot tarnt. Ein echter GPTBot kommt von OpenAI IPs. Ein Bot, der behauptet GPTBot zu sein, aber von einem unbekannten Rechenzentrum kommt, ist mit hoher Wahrscheinlichkeit kein legitimer OpenAI Crawler.
7. Die haeufigsten Fehler und wie du sie vermeidest
Genug Theorie. Lass uns ueber die Fehler sprechen, die in der Praxis immer wieder passieren.
Fehler 1: robots.txt korrekt setzen, aber Cloudflare vergessen
Das ist der Klassiker. Du pflegst eine sorgfaeltige robots.txt, aber Cloudflares Bot Fight Mode oder Super Bot Fight Mode blockiert alle KI-Bots auf Firewall-Ebene, bevor sie die robots.txt ueberhaupt lesen koennen. WAF-Regeln sind staerker als robots.txt-Direktiven.
Loesung:
Pruefe im Cloudflare Dashboard unter Security dann Bots die Einstellungen. Stelle sicher, dass Verified Bots nicht pauschal blockiert werden. Konfiguriere gegebenenfalls Custom Rules, die die gewuenschten KI-Crawler explizit durchlassen.
Fehler 2: Alle KI Crawler gleich behandeln
OAI-SearchBot und GPTBot haben den gleichen Ursprung (OpenAI), aber vollstaendig unterschiedliche Auswirkungen. GPTBot blockieren und OAI-SearchBot nicht zu erwaehnen, ist ein haeufiger Fehler. Pruefe immer beide Varianten.
Fehler 3: robots.txt ohne IP Verifizierung vertrauen
robots.txt gibt einem Crawler Anweisungen. Aber du hast keine Garantie, dass der Bot, der sich als PerplexityBot ausgibt, auch wirklich von Perplexity kommt. Fuer kritische Entscheidungen kombiniere robots.txt mit IP Whitelist-Pruefung oder WAF-Regeln, die IPs validieren.
Fehler 4: Trainings Crawler und Such Crawler verwechseln
GPTBot blockieren und gleichzeitig annehmen, man sei trotzdem in ChatGPT sichtbar, ist ein verbreitetes Missverstaendnis. GPTBot Blocking verhindert Trainings Datennutzung. Fuer ChatGPT Sichtbarkeit braucht man OAI SearchBot. Das sind zwei verschiedene Mechanismen.
Fehler 5: JavaScript lastige Architektur mit GEO Anspruch
Wenn deine Website stark auf Client Side Rendering setzt und KI-Crawler kein JavaScript ausfuehren, sind deine Inhalte fuer diese Crawler nicht sichtbar. Das betrifft vor allem Single Page Applications. Sicherstelle, dass relevante Inhalte im serverseitig gerenderten HTML vorhanden sind.
Fehler 6: Crawl Delay vergessen
Gut-artige Bots wie PerplexityBot, der bekannt fuer hoch frequentes Crawling ist, koennen deinen Server unbeabsichtigt belasten. Ein einfaches Crawl Delay in der robots.txt reduziert die Last ohne die Beziehung zu kappen.
8. Experten Tipps fuer fortgeschrittene Nutzer
Tipp 1: Monitoring aufsetzen, nicht nur konfigurieren
Eine einmal gesetzte Konfiguration veraltet schnell. Neue Bots kommen hinzu, bekannte Bots aendern ihre User Agent Strings, IP Ranges verschieben sich. Plane eine vierteljährliche Ueberpruefung deiner robots.txt und WAF-Regeln ein. Setze Alerts, wenn Bot Traffic Volumina sprunghaft ansteigen.
Tipp 2: Separate robots.txt Konfiguration fuer Subdomains
Eine robots.txt gilt nur fuer ihre eigene Domain. Wenn du blog.example.com und api.example.com betreibst, benoetigt jede Subdomain eine eigene robots.txt. Vergiss nicht, api.example.com gegen alle Bots abzusichern, nicht nur gegen KI-Crawler.
Tipp 3: Schema Markup als GEO-Booster
Technischer GEO geht ueber robots.txt hinaus. Implementiere strukturierte Daten (Schema Markup) insbesondere fuer Article, FAQ, HowTo, Organization und Breadcrumb. KI-Systeme nutzen strukturierte Daten, um Inhalte besser zu verstehen und als zitierfaehige Quellen einzustufen.
Tipp 4: Honeypot-Pfade fuer unseriose Scraper
Eine fortgeschrittene Technik: Lege in deiner robots.txt Pfade als Disallow an, die legitime Benutzer nie besuchen wuerden.
Zum Beispiel /do-not-crawl/. Dann ueberpruefen du in Nginx, ob irgendwelche Anfragen an diesen Pfad kommen. Bots, die robots.txt ignorieren, werden diesen Pfad aufrufen und sich damit selbst identifizieren. Deren IPs kannst du dann gezielt sperren.
| # In robots.txt: User-agent: * Disallow: /honeypot-do-not-crawl/ # In nginx.conf: location /honeypot-do-not-crawl/ { # IP in Blockliste aufnehmen und 404 zurueckgeben deny all; return 404; } |
Tipp 5: Retry-After-Header korrekt setzen
Wenn du einen Bot per 429 Too Many Requests ablehnst, setze immer einen Retry-After-Header. Das signalisiert dem Bot, wann er es wieder versuchen darf, und verhindert sofortige Wiederholungsversuche, die den Rate Limiter weiter belasten.
| # In nginx nach einem 429: limit_req_status 429; add_header Retry-After 60; # 60 Sekunden warten |
9. FAQ: Die wichtigsten Fragen auf einen Blick
Blockiert robots.txt auch wirklich alle KI-Bots?
Nein. robots.txt ist ein freiwilliges Protokoll. Seriose KI Crawler wie GPTBot, ClaudeBot, OAI-SearchBot, PerplexityBot und Applebot-Extended halten sich daran. Unseriose Scraper wie Bytespider tun das haeufig nicht. Gegen unseriose Bots hilft nur technisches Rate Limiting oder Blocking auf Server oder WAF-Ebene.
Was passiert, wenn ich GPTBot blockiere, aber OAI-SearchBot nicht?
Dann werden deine Inhalte nicht fuer das Training kuenftiger GPT-Modelle genutzt, aber du kannst trotzdem in ChatGPT-Antworten zitiert werden, weil OAI-SearchBot deine Seite fuer das Retrieval-System indexiert. Das ist die empfohlene Strategie fuer die meisten Website Betreiber.
Verliere ich Google Rankings, wenn ich Googlebot-Extended blockiere?
Nein. Google-Extended ist ein separater Bot fuer Gemini Training und hat nichts mit dem klassischen Googlebot zu tun, der fuer Rankings verantwortlich ist. Du kannst Google Extended problemlos blockieren, ohne deine Suchmaschinenplatzierungen zu gefaehrden.
Wie oft sollte ich meine robots.txt aktualisieren?
Mindestens einmal pro Quartal. Die Bot Landschaft aendert sich schnell. Neue Anbieter kommen hinzu, bekannte Bots ergaenzen ihre User Agent Strings, und neue Produkte wie zum Beispiel Apple Intelligence treiben das Crawler Volumen von Bots wie Applebot-Extended in die Hoehe.
Hilft llms.txt meiner KI Sichtbarkeit wirklich?
Stand Juni 2026: Nein, nicht messbar. Es gibt keinen empirischen Beleg, dass llms.txt die Zitierrate in KI Antworten verbessert. Die bekannten LLMs ignorieren den Standard aktuell weitgehend. Investiere deine Zeit zuerst in eine korrekte robots.txt und sauber strukturierten HTML Content.
Was ist das Crawl to Referral Verhaeltnis und warum ist es wichtig?
Es gibt an, wie viele Seiten ein Crawler indexieren muss, um einen einzigen Besucher auf deine Website zu schicken. Googlebot lag bei etwa 14 zu 1, OpenAIs Trainings-Crawler lag bei 1.700 zu 1, Anthropics ClaudeBot sogar bei 73.000 zu 1 (Stand Juni 2025). Dieses Ungleichgewicht ist der Hauptgrund, warum viele Publisher Trainings-Crawler blockieren: Das Nutzer zu Aufwand Verhaeltnis ist extrem ungünstig.
Muss ich Bytespider komplett blockieren?
Bytespider, der Crawler von ByteDance (TikTok-Muttergesellschaft), ist fuer aggressives Crawling bekannt und respektiert robots.txt-Direktiven haeufig nicht. Die meisten Server-Konfigurationsanleitungen empfehlen ein hartes Blocking auf WAF oder Nginx Ebene.
Was passiert, wenn ich alle KI-Bots blockiere und dann wieder erlaube?
Gute Frage. Wenn du Such Bots fuer laengere Zeit blockierst, verlierst du Zitier Slots in KI Antworten. Diese Slots werden von Konkurrenten besetzt. Nach dem Wiedererlauben dauert es Wochen bis Monate, bis du wieder ausreichend re indexiert wirst und erneut in KI Antworten auftauchst. Blockierung ist also keine leicht umkehrbare Entscheidung.
10. Zusammenfassung: Das musst du mitnehmen
Wenn du diesen Guide auf drei Kernerkenntnisse reduzieren musst, dann auf diese:
- Trainings-Crawler und Such-Crawler sind grundverschieden. Entscheide fuer jeden Typ separat. Du kannst GPTBot blockieren und OAI-SearchBot gleichzeitig erlauben. Dasselbe gilt fuer ClaudeBot und Claude-SearchBot.
- robots.txt allein reicht nicht. Seriose Bots respektieren sie. Unseriose nicht. WAF Regeln und Rate Limiting auf Server Ebene sind die technisch verlässlichere Schicht, besonders fuer aggressive Scraper wie Bytespider.
- KI Sichtbarkeit hat einen realen Wert, den du nicht leichtfertig aufgeben solltest. Wer Such-Bots blockiert, entfernt sich aus ChatGPT, Perplexity und Google AI Overviews. Das ist 2026 ein messbarer Wettbewerbsnachteil.
| Die empfohlene Minimalstrategie 2026 1. robots.txt nach Strategie B konfigurieren (Such-Bots erlaubt, Trainings-Crawler gesperrt) 2. Cloudflare Bot Einstellungen ueberpruefen und sicherstellen, dass Verified Bots nicht pauschal blockiert werden 3. Nginx oder Apache Rate Limiting fuer Trainings-Crawler konfigurieren 4. Bytespider auf WAF Ebene blockieren 5. Server-Logs vierteljährlich auswerten und Konfiguration anpassen |
11. Abschluss: Jetzt liegt der Ball bei dir
Der LLM Crawler Wildwuchs des Jahres 2026 ist keine Apokalypse fuer Website Betreiber. Er ist eine sagen wir mal, neue Variable in einer Gleichung, die Entwickler und SEOs schon immer anpassen mussten. Wer versteht, wie die verschiedenen Crawler Typen funktionieren, was sie wollen und was sie zurueckgeben, kann informierte Entscheidungen treffen.
Fang klein an. Oeffne deine robots.txt, pruefe deine Cloudflare Einstellungen, schaue in deine Server-Logs. Du wirst wahrscheinlich ueberrascht sein, was da alles passiert, ohne dass du es weisst.
Und dann: entscheide bewusst. Nicht aus Angst vor KI Crawlern. Nicht aus blindem Vertrauen. Sondern aus einem klaren Verstaendnis, was du willst: Schutz, Sichtbarkeit, oder beides, so gut du es hinbekommst.
Das Dilemma ist real. Aber es hat Loesungen. Jetzt kennst du sie.
