Die stetige Weiterentwicklung von KI und Large Language Models (LLMs) stellt neue Herausforderungen an die technische SEO, vor allem aber an die Robots.txt Datei. Denn durch diese lässt sich über das Rootverzeichnis steuern, wer welchen Zugriff auf die Website erhält.
Sollte man überhaupt steuern, ob und wie KI-Bots Inhalte scrappen oder für Trainingszwecke nutzen dürfen? Wir finden schon, denn nicht jeder Content muss und darf kostenlos in Large Language Modelle integriert werden.
Die robots.txt bleibt relevant, aber nicht allmächtig: Die robots.txt-Datei ist weiterhin das zentrale Steuerungselement, um Crawlern (auch KI-Bots) den Zugriff zu erlauben oder zu verbieten. Seriöse KI-Bots (z. B. GPTBot, ClaudeBot) respektieren die Einträge in robots.txt und halten sich an die Vorgaben.
Die New York Times (NYT) hatte schon frühzeitig auf die wachsende Bedeutung von KI-Bots wie OpenAIs GPTBot reagiert und diesen gezielt per robots.txt vom Crawling ausgeschlossen. Damit wollte die NYT verhindern, dass ihre Inhalte zum Training von KI-Modellen genutzt werden, ohne dass eine Lizenzierung oder Vergütung erfolgt. Die robots.txt der NYT enthielt explizit einen Disallow-Eintrag für GPTBot und andere KI-Crawler. Trotzdem gelang es OpenAI Inhalte der NYT in die Trainingsdaten zu integrieren. Da ist der Bot wohl unerlaubt über die Robots.txt Mauer gesprungen! Es wurde Klage durch die NYT eingereicht. Ein US-Bundesgericht hat im Frühjahr 2025 entschieden, dass die Hauptklagepunkte der New York Times gegen OpenAI und Microsoft zulässig sind. Das Urteil steht noch aus.
KI stellt das Urheberrecht infrage: KI-Modelle nutzen große Mengen Web-Content für Training und Inferenz, oft ohne explizite Zustimmung oder Vergütung der Urheber. Rechtliche Grauzonen entstehen, da viele Inhalte zwar urheberrechtlich geschützt sind, das Training von KI-Modellen mit diesen Daten aber bislang kaum reguliert ist. Cloudflare als einer der größten CDN- und Security-Anbieter hat darauf bereits mit neuen Features darauf reagiert.
Seit Juli 2025 blockiert der Anbieter per Default alle bekannten AI Scraper und Crawler. Website-Betreiber können gezielt steuern, welche Bots zugelassen oder blockiert werden – und dies sogar mit einem einzigen Klick im Dashboard.
Cloudflare bietet eine „Managed robots.txt“, die automatisch bekannte KI-Bots blockiert. Betreiber können diese Datei anpassen, um bestimmten Bots explizit Zugriff zu gewähren oder zu verweigern.
User-agent: GPTBot
Allow: /
Umgekehrt kann man mit Disallow: / den Zugriff verhindern.
Cloudflare und andere Anbieter arbeiten an Marktplätzen, über die Website-Betreiber KI-Bots den Zugriff auf Inhalte nur gegen Bezahlung (Pay-per-Crawl) erlauben. Dies kann über API-Keys, Verträge oder automatisierte Systeme erfolgen.
Fazit
Die Zukunft gehört einer Kombination aus Transparenz, Kontrolle und Monetarisierung. Wer seine Inhalte schützen und gleichzeitig von KI profitieren will, muss jetzt die Weichen stellen.
Die robots.txt bleibt ein zentrales Steuerungsinstrument, reicht allein aber nicht mehr aus. Die Kombination aus gezielter Steuerung (robots.txt), technischer Absicherung (Bot Management) und neuen Monetarisierungsmodellen (Pay-per-Crawl) ermöglicht es Website-Betreibern, die Kontrolle über ihre Inhalte zurückzugewinnen und neue Erlösquellen zu erschließen – trotz der disruptiven Kraft der KI.