LLMs.txt ist eine im Wurzelverzeichnis einer Website abgelegte Textdatei im Markdown-Format, die Large Language Models (LLMs) und KI-Agenten strukturierten Zugang zu den inhaltlich relevantesten Seiten einer Domain verschafft. Das Konzept wurde im September 2024 von Jeremy Howard (fast.ai) als informeller Vorschlag eingeführt und seither als De-facto-Standard im Bereich Generative Engine Optimization (GEO) und Agentic Web diskutiert. Die Datei ist kein offizieller W3C- oder IETF-Standard.
LLMs.txt gehört zur Familie der Web-Steuerdateien – Dateien im Root-Verzeichnis einer Domain, die das Verhalten automatisierter Systeme beim Zugriff auf eine Website beeinflussen. Die bekanntesten Vertreter dieser Familie sind robots.txt (seit 1994) und XML-Sitemap (seit 2005). LLMs.txt ist konzeptuell mit diesen Dateien verwandt, adressiert aber einen grundlegend anderen Empfänger und eine andere Leseschicht.
Der entscheidende Unterschied liegt nicht im Format oder Ablageort, sondern in der Frage, für welchen Typ von Systemlogik die Datei geschrieben ist:
Das Konzept hinter LLMs.txt adressiert ein strukturelles Problem, das mit dem Aufkommen von Retrieval-Augmented Generation (RAG) entstanden ist: KI-Systeme, die in Echtzeit das Web abfragen, um Antworten zu generieren, navigieren Websites nicht wie ein menschlicher Nutzer oder ein klassischer Suchmaschinen-Crawler. Sie suchen nach dem kürzesten Weg zu inhaltlich verwertbarem Material.
Dabei stehen sie vor zwei konzeptuellen Hürden, die LLMs.txt adressiert:
Hürde 1: Das Kontextfenster-Problem
LLMs verarbeiten Informationen innerhalb eines begrenzten Kontextfensters (Token-Limit). Eine vollständige Website mit hunderten Seiten, Navigation, Footer-Texten, Cookie-Bannern und Werbeelementen kann ein LLM nicht vollständig in einem Schritt verarbeiten. Es muss auswählen – und tut das ohne externe Steuerung nach eigener Gewichtungslogik. LLMs.txt liefert eine redaktionelle Vorauswahl: Es benennt, welche Seiten für das Verständnis der Domain am relevantesten sind, und beschreibt ihren Inhalt in wenigen Sätzen. Das verringert die Wahrscheinlichkeit, dass ein KI-Agent randständige oder veraltete Seiten als repräsentativ für eine Domain wertet.
Hürde 2: Das Mehrdeutigkeitsproblem
Websites kommunizieren primär für Menschen: mit Navigation, visuellen Hierarchien, Hover-Effekten und Designsprache. Für ein Sprachmodell, das eine Seite als Rohtext liest, sind diese Signale nicht vorhanden. Welche Seite repräsentiert das Kernthema einer Domain? Welcher Blogbeitrag ist redaktionell kurativ und welcher ist ein veralteter Testinhalt? LLMs.txt gibt darauf eine explizite Antwort – in einer Sprache, die Sprachmodelle ohne Rendering und Layout-Interpretation direkt verarbeiten können: strukturiertes Markdown.
Für die Generative Engine Optimization (GEO) ist LLMs.txt damit kein technisches Optimierungselement im klassischen SEO-Sinne, sondern ein Signal der inhaltlichen Selbstverortung: Eine Domain erklärt einem KI-System, wer sie ist, was ihre wichtigsten Inhalte sind und in welchem thematischen Kontext sie steht. Ob und wie stark KI-Systeme diese Selbstverortung in ihrer Antwortgenerierung berücksichtigen, ist systemabhängig und zum aktuellen Zeitpunkt empirisch nicht abschließend belegt.
Der konzeptuelle Status von LLMs.txt ist deshalb präzise zu benennen: Es handelt sich um einen informellen De-facto-Standard, der von einer wachsenden Zahl von Plattformen und Tools unterstützt wird – darunter Perplexity, Anthropic-eigene Crawler und verschiedene RAG-Systeme –, der jedoch weder von Google offiziell als Rankingfaktor anerkannt noch als formaler W3C-Standard verabschiedet wurde. Google hat die Datei im Mai 2026 in Lighthouse als prüfbares Kriterium aufgenommen, was den Status als relevantes technisches Signal unterstreicht, ohne eine Aussage über algorithmische Gewichtung zu treffen.
Abgrenzung verwandter Begriffe
Verwandte Glossareinträge
→ Generative Engine Optimization (GEO)
→ RAG (Retrieval-Augmented Generation)
→ Structured Data / Schema.org