LLMs.txt Datei

LLMs.txt ist eine im Wurzelverzeichnis einer Website abgelegte Textdatei im Markdown-Format, die Large Language Models (LLMs) und KI-Agenten strukturierten Zugang zu den inhaltlich relevantesten Seiten einer Domain verschafft. Das Konzept wurde im September 2024 von Jeremy Howard (fast.ai) als informeller Vorschlag eingeführt und seither als De-facto-Standard im Bereich Generative Engine Optimization (GEO) und Agentic Web diskutiert. Die Datei ist kein offizieller W3C- oder IETF-Standard.

Konzeptuelle Einordnung: Was LLMs.txt ist – und was es nicht ist

LLMs.txt gehört zur Familie der Web-Steuerdateien – Dateien im Root-Verzeichnis einer Domain, die das Verhalten automatisierter Systeme beim Zugriff auf eine Website beeinflussen. Die bekanntesten Vertreter dieser Familie sind robots.txt (seit 1994) und XML-Sitemap (seit 2005). LLMs.txt ist konzeptuell mit diesen Dateien verwandt, adressiert aber einen grundlegend anderen Empfänger und eine andere Leseschicht.

Der entscheidende Unterschied liegt nicht im Format oder Ablageort, sondern in der Frage, für welchen Typ von Systemlogik die Datei geschrieben ist:

robots.txt – Zugriffskontrolle für Crawler

Zweck: Reguliert, welche URL-Pfade einer Domain von Crawlern besucht werden dürfen.
Empfänger: Suchmaschinen-Crawler (Googlebot, Bingbot) und KI-Crawler (OAI-SearchBot, ClaudeBot).
Logik: Erlaubnis- und Sperrregeln auf URL-Pfadbasis. Binäre Aussage: Zutritt ja oder nein.
Keine Aussage über: Inhaltliche Relevanz, Kontext oder Bedeutung einer Seite.

XML-Sitemap – Strukturkarte für den Suchmaschinen-Index

‍Zweck: Listet alle indexierbaren URLs einer Domain auf und gibt Hinweise zu Priorität, Änderungsfrequenz und letzter Aktualisierung.‍
Empfänger: Ausschließlich Suchmaschinen-Crawler. XML-Sitemaps sind für klassische Indexierungs-Pipelines konzipiert.‍
Logik: Vollständige Aufzählung von URLs. Die Sitemap sagt: "Diese Seiten existieren und sollten im Suchindex landen."‍
Keine Aussage über: Bedeutung, thematischen Kontext oder die Frage, was eine Seite inhaltlich aussagt.

LLMs.txt – Semantische Orientierungsdatei für Sprachmodelle

‍Zweck: Stellt LLMs und KI-Agenten eine reduzierte, inhaltlich kuratierte Auswahl der wichtigsten Seiten mit Kurzbeschreibungen bereit.
Empfänger: Sprachmodelle, KI-Agenten, RAG-Systeme (Retrieval-Augmented Generation). Nicht primär für klassische Suchmaschinen-Crawler.
Logik: Selektive Kuration, keine Vollständigkeit. Die Datei sagt: "Das sind die inhaltlich bedeutsamsten Seiten – und das ist ihr Kontext."
Keine Aussage über: URL-Erlaubnis oder technische Crawler-Steuerung.

Bedeutung von LLMs.txt für Sichtbarkeit im Agentic Web und GEO

Das Konzept hinter LLMs.txt adressiert ein strukturelles Problem, das mit dem Aufkommen von Retrieval-Augmented Generation (RAG) entstanden ist: KI-Systeme, die in Echtzeit das Web abfragen, um Antworten zu generieren, navigieren Websites nicht wie ein menschlicher Nutzer oder ein klassischer Suchmaschinen-Crawler. Sie suchen nach dem kürzesten Weg zu inhaltlich verwertbarem Material.

Dabei stehen sie vor zwei konzeptuellen Hürden, die LLMs.txt adressiert:

Hürde 1: Das Kontextfenster-Problem

LLMs verarbeiten Informationen innerhalb eines begrenzten Kontextfensters (Token-Limit). Eine vollständige Website mit hunderten Seiten, Navigation, Footer-Texten, Cookie-Bannern und Werbeelementen kann ein LLM nicht vollständig in einem Schritt verarbeiten. Es muss auswählen – und tut das ohne externe Steuerung nach eigener Gewichtungslogik. LLMs.txt liefert eine redaktionelle Vorauswahl: Es benennt, welche Seiten für das Verständnis der Domain am relevantesten sind, und beschreibt ihren Inhalt in wenigen Sätzen. Das verringert die Wahrscheinlichkeit, dass ein KI-Agent randständige oder veraltete Seiten als repräsentativ für eine Domain wertet.

Hürde 2: Das Mehrdeutigkeitsproblem

Websites kommunizieren primär für Menschen: mit Navigation, visuellen Hierarchien, Hover-Effekten und Designsprache. Für ein Sprachmodell, das eine Seite als Rohtext liest, sind diese Signale nicht vorhanden. Welche Seite repräsentiert das Kernthema einer Domain? Welcher Blogbeitrag ist redaktionell kurativ und welcher ist ein veralteter Testinhalt? LLMs.txt gibt darauf eine explizite Antwort – in einer Sprache, die Sprachmodelle ohne Rendering und Layout-Interpretation direkt verarbeiten können: strukturiertes Markdown.

Für die Generative Engine Optimization (GEO) ist LLMs.txt damit kein technisches Optimierungselement im klassischen SEO-Sinne, sondern ein Signal der inhaltlichen Selbstverortung: Eine Domain erklärt einem KI-System, wer sie ist, was ihre wichtigsten Inhalte sind und in welchem thematischen Kontext sie steht. Ob und wie stark KI-Systeme diese Selbstverortung in ihrer Antwortgenerierung berücksichtigen, ist systemabhängig und zum aktuellen Zeitpunkt empirisch nicht abschließend belegt.

Der konzeptuelle Status von LLMs.txt ist deshalb präzise zu benennen: Es handelt sich um einen informellen De-facto-Standard, der von einer wachsenden Zahl von Plattformen und Tools unterstützt wird – darunter Perplexity, Anthropic-eigene Crawler und verschiedene RAG-Systeme –, der jedoch weder von Google offiziell als Rankingfaktor anerkannt noch als formaler W3C-Standard verabschiedet wurde. Google hat die Datei im Mai 2026 in Lighthouse als prüfbares Kriterium aufgenommen, was den Status als relevantes technisches Signal unterstreicht, ohne eine Aussage über algorithmische Gewichtung zu treffen.

Abgrenzung verwandter Begriffe

LLMs.txt vs. robots.txt: robots.txt steuert Zugriff (Erlaubnis/Sperre). LLMs.txt steuert Bedeutung (Relevanz/Kontext). Beide können gleichzeitig existieren und ergänzen sich.
LLMs.txt vs. XML-Sitemap: Die XML-Sitemap ist vollständig – sie listet alle URLs. LLMs.txt ist kuratorisch – sie listet das Wesentliche mit Beschreibung. Zielgruppe und Logik sind verschieden.
LLMs.txt vs. Schema.org: Schema.org annotiert einzelne Seiten mit maschinenlesbaren Bedeutungsmarkierungen. LLMs.txt beschreibt die Domain als Ganzes aus der Vogelperspektive.
LLMs.txt vs. llms-full.txt: Eine optionale Erweiterung, die den vollständigen Markdown-Inhalt relevanter Seiten direkt einbettet – für Systeme, die keine weiteren HTTP-Anfragen stellen können oder wollen.

Verwandte Glossareinträge

→ XML-Sitemap

→ robots.txt

→ Generative Engine Optimization (GEO)

→ Agentic Web

→ RAG (Retrieval-Augmented Generation)

→ Structured Data / Schema.org

‍