LLMs.txt in Google Lighthouse: Signal, das Webseitenarchitektur neu definiert

2.6.2026

Google hat Google Lighthouse um eine neue Audit-Kategorie erweitert: "Agentic Browsing". Darin enthalten ist unter anderem eine Prüfung, ob eine llms.txt-Datei auf der Website vorhanden ist. Was technisch unscheinbar wirkt, ist bei näherer Betrachtung ein deutliches Signal: Das Web der Zukunft wird nicht mehr ausschließlich von Menschen navigiert – und Websites müssen darauf vorbereitet sein.

Was ist eine LLMs.txt-Datei – und wie unterscheidet sie sich von anderen Steuerungsdateien?

Die llms.txt ist eine vergleichsweise neue Konvention, die speziell für KI-Systeme entwickelt wurde. Sie liegt im Stammverzeichnis einer Website (z. B. https://example.com/llms.txt) und enthält eine strukturierte, maschinenlesbare Zusammenfassung des Website-Inhalts im Markdown-Format: Zweck der Website, wichtigste Seiten und Ressourcen – kompakt und für Large Language Models direkt verwertbar. Mehr dazu, wie eine solche Datei automatisiert erstellt werden kann, liest du in unserem Artikel zur automatisierten Erstellung einer LLMs.txt-Datei.

XML-Sitemap, HTML-Sitemap, robots.txt und LLMs.txt im Vergleich

Auf den ersten Blick ähneln sich diese vier Dateiformate, sie verfolgen jedoch grundlegend unterschiedliche Zwecke:

XML-Sitemap (z. B. sitemap.xml): Listet alle URLs einer Website strukturiert auf und hilft Suchmaschinen-Crawlern dabei, neue und aktualisierte Seiten effizient zu entdecken und zu indexieren. Sie ist primär an Suchmaschinen gerichtet.

HTML-Sitemap: Eine für Menschen lesbare Übersichtsseite aller relevanten Unterseiten einer Website. Dient der Nutzernavigation und kann indirekt SEO-Vorteile durch interne Verlinkung bieten.

robots.txt: Eine Textdatei, die Crawlern mitteilt, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Sie ist ein Zugangskontroll-Mechanismus, kein Inhaltsvermittler.

LLMs.txt: Kein Verbot, keine Sitemap – sondern ein strukturierter Wegweiser. Die Datei erklärt KI-Agenten und LLMs, worum es auf der Website geht, und liefert die wichtigsten Inhalte direkt in einem Format, das Sprachmodelle ohne weitere Interpretation verarbeiten können. Während robots.txt sagt "hier nicht", sagt LLMs.txt "hier entlang – und das ist relevant". Mehr Hintergründe zur Einordnung von LLMs.txt in der generativen Suche findest du in unserem Artikel zu LLMs.txt und KI in der generativen Suche.

Google Lighthouse prüft jetzt LLMs.txt – was bedeutet das konkret?

Der neue Lighthouse-Audit "Agentic Browsing"

Google hat Lighthouse im Mai 2026 um eine neue Kategorie ergänzt, die bewertet, wie gut eine Website für maschinelle Interaktion aufgebaut ist. Diese "Agentic Browsing Audits" umfassen unter anderem:

  • WebMCP-Integration (Machine Context Protocol für Browser-Agenten)
  • Barrierefreiheit des Accessibility Trees (primäre Datenquelle für KI-Agenten)
  • Layout Stability via Cumulative Layout Shift (CLS)
  • Vorhandensein einer LLMs.txt-Datei

Bemerkenswert dabei: Die Kategorie erzeugt keinen klassischen Lighthouse-Score zwischen 0 und 100, sondern gibt ein fraktionales Pass/Fail-Verhältnis aus. Wird die LLMs.txt nicht gefunden, markiert Lighthouse die Prüfung als "Nicht zutreffend" – die Datei ist weiterhin optional. Tritt jedoch ein Serverfehler beim Abruf auf, wird dies als Fehler gewertet.

Macht es einen Unterschied, ob eine LLMs.txt vorhanden ist oder nicht?

Hier lohnt sich ein differenzierter Blick. Google selbst hat in seinem Guide zur Optimierung für generative KI-Funktionen explizit festgehalten, dass eine LLMs.txt-Datei nicht notwendig ist, um in AI Overviews oder im AI Mode zu erscheinen. Googles John Mueller ergänzte dazu sinngemäß: Die Datei helfe nicht bei der Discovery durch Suchmaschinen, sondern verbessere die Funktionalität – also das, was passiert, nachdem ein KI-Agent eine Seite gefunden hat.

Das ist ein wichtiger Unterschied und widerlegt ein wenig die These, dass LLMs.txt Dateien überflüssig sind. LLMs.txt wirkt nicht wie ein Rankingfaktor, sondern wie ein Effizienz-Signal für Agenten: Ohne die Datei müssen KI-Agenten mehr Zeit und Ressourcen aufwenden, um die Struktur und die wichtigsten Inhalte einer Website zu verstehen. Google Lighthouse dokumentiert diese Lücke jetzt als messbares Qualitätsmerkmal – ein deutlicher Hinweis, in welche Richtung sich Webstandards entwickeln.

Fazit zur These "Unterschied mit/ohne LLMs.txt": Für klassisches SEO heute – kaum messbar. Für die Auffindbarkeit und Verwertbarkeit durch autonome KI-Agenten – potenziell erheblich. Das Zeitfenster für proaktives Handeln ist gerade jetzt günstig.

Wie LLMs Webseiteninhalte heute erfassen – und warum das ein Infrastrukturproblem werden kann

LLMs und KI-Systeme beziehen ihre Wissensbasis aus zwei Quellen: einmaligem Training auf großen Textkorpora und zunehmend auch realtime-Crawling für aktuelle Informationen (Retrieval-Augmented Generation, RAG). Im letzteren Fall navigieren KI-Agenten aktiv das Web, rufen Seiten ab, analysieren Inhalte semantisch – und das in einem Volumen, das weit über klassisches Suchmaschinen-Crawling hinausgeht.

Massenhaftes Crawlen und die Belastung von Webservern

Die Zahlen sind eindeutig: Laut Cloudflare wuchs der Crawler-Traffic (Suchmaschinen und AI-Bots zusammen) zwischen Mai 2024 und Mai 2025 um 18 %. GPTBot allein legte in diesem Zeitraum um 305 % zu, ChatGPT-User sogar um 2.825 %.

Moderne KI-Bots unterscheiden sich grundlegend von traditionellen Search-Crawlern: Sie simulieren Nutzerverhalten, führen JavaScript aus, interagieren mit dynamischen Elementen und folgen tiefen Verlinkungen, um Trainingsdaten zu extrahieren. Dieses "User-Action-Crawling" nahm 2025 um das 15-Fache zu – für einen Server ist die JavaScript-Ausführung für einen Bot deutlich ressourcenintensiver als das Ausliefern einer statischen HTML-Datei.

Bots verhalten sich nicht wie normaler Nutzer-Traffic: Sie erzeugen durch große oder wiederholte Anfragen eine überproportionale Infrastrukturbelastung, beanspruchen Website-Bandbreite und können Server überlasten.

Erhöhter Server-Load durch hochfrequentes Scraping kann Websites verlangsamen – und langsamere Antwortzeiten wirken sich negativ auf Core Web Vitals wie LCP und INP aus, was wiederum SEO-Relevanz hat.

Wer mehr über die verschiedenen Arten von Crawler-Bots und AI-Agenten wissen möchte, die auf die eigene Website zugreifen, findet in unserem Überblick zu Crawler-Bots und AI-Agenten: Wer greift auf meine Website zu? eine detaillierte Einordnung.

API-first und strukturierte Architektur: Lösung oder Hoffnung?

An dieser Stelle lohnt sich eine ehrliche Einschätzung einer häufig geäußerten These: Websites mit strukturierter, API-first-Architektur sind gegenüber dem massenweisen Crawling durch KI-Bots im Vorteil, weil Agenten direkt auf strukturierte Daten zugreifen können – und der Server dadurch entlastet wird.

Diese These ist plausibel, aber nur bedingt belegt. Richtig ist: Wenn KI-Agenten strukturierte Endpunkte (JSON-APIs, Feeds, maschinenlesbare Formate) nutzen könnten, anstatt vollständige HTML-Seiten inklusive Rendering zu laden, würde das den Rechenaufwand auf Seiten des Servers erheblich reduzieren. Eine LLMs.txt-Datei ist in diesem Sinne ein erster Schritt – sie bietet eine kompakte, direkt verwertbare Zusammenfassung, ohne dass ein Agent die gesamte Seitenstruktur crawlen muss.

Allerdings: Die überwiegende Mehrheit der heute aktiven KI-Crawler – darunter GPTBot, ClaudeBot, Google-Extended – ist nicht darauf ausgelegt, API-Endpunkte gezielt anzufragen. Sie crawlen HTML wie klassische Bots, nur aggressiver. Eine API-first-Architektur entlastet den Server nur dann, wenn KI-Agenten diese Schnittstellen auch aktiv nutzen – was heute noch die Ausnahme ist.

Die These ist also zutreffend als strategische Richtung für die Zukunft, aber kein kurzfristiger Lösungsansatz für das aktuelle Crawler-Belastungsproblem. Was heute hilft: Rate-Limiting für Bot-Traffic, gezielte Steuerung über robots.txt und eine gut gepflegte LLMs.txt, die unnötiges Tiefen-Crawling reduziert.

Auswirkungen auf Agentic Web und Agentic Commerce

Die Integration der LLMs.txt-Prüfung in Lighthouse ist kein isoliertes Update – sie ist Teil einer größeren Entwicklung, die als Agentic Web bezeichnet wird: einem Web, in dem autonome KI-Agenten eigenständig navigieren, Informationen abrufen, Preise vergleichen, Buchungen vornehmen und Käufe abschließen.

Für den E-Commerce bedeutet das konkret: Im Agentic Commerce agiert nicht mehr nur der menschliche Nutzer als Käufer, sondern auch KI-Agenten, die im Auftrag von Nutzern handeln. Ein Agent, der Produktinformationen benötigt, hat keine Geduld für langsam ladende, JavaScript-schwere Seiten. Er priorisiert Anbieter, deren Inhalte er schnell, strukturiert und vollständig verarbeiten kann.

Websites, die heute in strukturierten Formaten kommunizieren – mit sauberer Semantik, stabilen Layouts, klaren Produktdaten und einer LLMs.txt als Einstiegspunkt – sind für das Agentic Web besser positioniert. Wer hingegen auf komplexe Render-Prozesse und undurchsichtige Seitenstrukturen setzt, riskiert nicht nur schlechtere AI-Sichtbarkeit, sondern auch höhere Infrastrukturkosten durch ineffizientes Crawling.

Dieser Wandel hängt eng mit einem weiteren Phänomen zusammen: dem strukturellen Rückgang klassischer Klick-Visits durch Zero-Click-Verhalten als strukturelle Herausforderung der SEO. KI-Agenten liefern Antworten, ohne dass Nutzer die Quellwebsite besuchen – umso wichtiger wird es, als verlässliche, gut strukturierte Quelle wahrgenommen zu werden.

Fazit: Webseitenarchitektur im KI-Zeitalter neu denken

Die Aufnahme der LLMs.txt in Google Lighthouse ist keine Revolution – aber ein unmissverständliches Signal. Google bewertet jetzt, ob Websites für maschinelle Interaktion vorbereitet sind. Das betrifft nicht nur SEO, sondern die gesamte technische Grundlage einer digitalen Präsenz.

Eine LLMs.txt-Datei allein macht noch keine KI-optimierte Website. Sie ist jedoch ein sichtbarer erster Schritt in Richtung einer Architektur, die versteht: Im Agentic Web sind Inhalte nicht mehr nur für Menschen – sie müssen auch von Maschinen effizient gelesen, verstanden und verarbeitet werden können.

Wer jetzt beginnt, Webseitenarchitektur aus dieser Perspektive zu denken, investiert nicht in einen Trend – sondern in die Infrastruktur des nächsten Webs.

2.6.2026

LLMs.txt in Google Lighthouse: Signal, das Webseitenarchitektur neu definiert

mehr erfahren
30.5.2026

Google als Agent Manager: Warum Traffic als Erfolgskennzahl bald ausgedient hat

mehr erfahren
27.5.2026

Grounding URLs: Warum jede Website eine Wissenseinheit braucht

mehr erfahren