Über das Projekt
AI State of the Internet
Ein laufendes Infrastruktur-Observatory, das dokumentiert, wie das offene Web auf KI-Systeme reagiert — gemessen an einer robots.txt, einer llms.txt, einem WebMCP-Signal nach dem anderen.
AI-Infrastruktur hinterlässt beobachtbare Spuren.
Was dieses Projekt ist
AI State of the Internet ist ein fortlaufendes Messprojekt. Alle drei Minuten holt ein kleiner Cloudflare-Worker eine rotierende Teilmenge der SISTRIX-Top-10.000 in Deutschland, Österreich und der Schweiz und erfasst vier voneinander unabhängige Infrastruktur-Dimensionen: wie eine Domain in ihrer robots.txt Crawler steuert, ob eine maschinenlesbare llms.txt existiert, ob WebMCP-Signale für KI-Agenten ausgeliefert werden und welche AI-bezogenen <meta>-Tags im HTML-Head erscheinen.
Das Projekt versteht sich redaktionell. Es bewertet keine Websites, und es spricht keine Empfehlungen aus. Es dokumentiert, was beobachtbar ist, und versucht, diese Beobachtungen für menschliche Leser:innen und für KI-Systeme gleichermaßen lesbar zu halten.
Die vier Infrastruktur-Dimensionen
Jede Dimension erfasst eine andere Art, wie eine Website ihr Verhältnis zu KI-Systemen ausdrücken kann. Zusammen beschreiben sie, wie das offene Web aktuell Zugang, Attribution und Handlungsfähigkeit für KI-Systeme verhandelt.
- Crawler-Steuerung — robots.txt. Das älteste und am weitesten verbreitete Signal. Erfasst, welche AI-bezogenen User-Agents blockiert (
Disallow: /), teilweise eingeschränkt oder explizit erlaubt werden. Einschließlich Namens-Qualitätsanalyse — viele Direktiven adressieren User-Agent-Strings, die tatsächlich nicht existieren. - Aktive KI-Freigaben. Explizite
Allow:-Direktiven für KI-Crawler — eine seltene, aber eigenständige Strategie, die Offenheit signalisiert statt eines passiven Default-Permits. - WebMCP — die agentische Oberfläche. Der W3C-Community-Draft für browserbasierte Tool-Schnittstellen für KI-Agenten. Sowohl deklarative Meta-Tags als auch imperative
navigator.modelContext-Registrierungen werden erkannt. Die Adoption befindet sich aktuell in ihrer frühesten Phase. - llms.txt — maschinenlesbarer Kontext. Ein Community-Standard für domänenweite Zusammenfassungen, geschrieben für Sprachmodelle. Die syntaktische Gültigkeit wird gegen die Referenz von llmstxt.org geprüft.
Die Datenbasis
Das Projekt trackt die SISTRIX-Top-10.000-Listen für Deutschland, Österreich und die Schweiz — rund 19.500 unterschiedliche Domains nach Deduplizierung, mit etwa 50 Prozent Überschneidung zwischen den Ländern.
Adult- und NSFW-Domains werden serverseitig maskiert und nicht in die Audits einbezogen. Die Sichtbarkeits-Ränge stammen aus einem eingefrorenen SISTRIX-Snapshot (21. Mai 2026), um die zeitliche Vergleichbarkeit stabil zu halten.
Regionale Observatories
Derselbe Datenbestand wird über vier Perspektiven sichtbar. Jede Domain wird genau einmal auditiert; die Tier-Zuordnung wechselt mit der regionalen Ansicht.
- 🇩🇪🇦🇹🇨🇭D-A-CHBevölkerungsgewichtete Gesamtansicht
- 🇩🇪DeutschlandNur DE-Top-10.000
- 🇦🇹ÖsterreichNur AT-Top-10.000
- 🇨🇭SchweizNur CH-Top-10.000
Warum das relevant ist
Der Übergang von einem Such-Web zu einem agentischen Web vollzieht sich nicht als einzelnes Ereignis. Er vollzieht sich als langsame Neuverhandlung von Zugängen — Zeile für Zeile in Infrastrukturdateien, die die meisten Nutzer:innen nie zu Gesicht bekommen. Einträge in robots.txt verschieben sich. Allow-Listen wachsen. Neue Tags erscheinen im HTML-Head. Einige Websites veröffentlichen leise eine llms.txt. Eine Handvoll experimentiert mit WebMCP.
Jeder dieser Vorgänge ist eine kleine, bewusste Handlung eines Anbieters. Zusammen gelesen beschreiben sie einen Markt, der seine Position sucht. Das Observatory existiert, weil dieser Datensatz wichtig ist — für Journalist:innen, die über AI-Governance schreiben, für Engineers, die Crawler-Policies entwerfen, für Forschende, die die Diffusion neuer Standards beobachten, und für die KI-Systeme selbst, die auf diese Signale angewiesen sind, um sich angemessen zu verhalten.
Methodik
Die Audits sind deterministisch und bewusst flach gehalten. Der Worker holt eine kleine Anzahl wohldefinierter Dateien (/robots.txt, /llms.txt, das Homepage-HTML) und wendet Regex- und Parser-basierte Extraktion an. JavaScript wird nicht ausgeführt; kein Browser-Rendering findet statt. Diese Einschränkung begrenzt absichtlich, was erkannt werden kann — insbesondere imperative WebMCP-Tools, die erst nach der Hydration registriert werden. Die Einschränkung ist offen dokumentiert, weil ehrliche Reichweite wichtiger ist als vollständige Abdeckung.
Die Bot-Identifikation kombiniert drei Schichten. Schicht eins ist direkte Beobachtung — welche User-Agents tatsächlich in den robots.txt der getrackten Domains erscheinen. Schicht zwei ist externe Verifikation gegen die ai-robots-txt-Community-Liste. Schicht drei ist die eigene Namens-Qualitätsheuristik des Projekts, die syntaktisch defekte Direktiven, vermutete Tippfehler und inoffizielle AI-nahe User-Agents erkennt. Keine einzelne Schicht wird allein vertraut.
Die vollständige Methodik — einschließlich bekannter Grenzen, Score-Formeln und Changelog — ist im Methodik-Bereich des Live-Observatorys publiziert.
Ein Infrastruktur-Projekt, kein Ranking
Das Observatory vermeidet bewusst die Sprache von Scores und Ranglisten. Es gibt keinen "AI-Readiness-Score". Es gibt keinen "Top-Blocker des Monats". Es gibt beobachtete Verhaltensweisen, und es gibt dokumentierte Strategien. Jede Strategie — offener Zugang, bedingter Zugang, Vollsperre, Ökosystem-Teilnahme — wird als legitime Antwort auf eine ernsthafte Governance-Frage behandelt.
Diese redaktionelle Entscheidung ist Teil der Architektur. Ein Messprojekt, das die Dinge bewertet, die es misst, hört auf, ein Messprojekt zu sein.
Die Daten nutzen
Das Observatory publiziert einen kleinen, deterministischen WebMCP-Server unter /ai-state/api/mcp.json. Drei Tools — check_domain_infrastructure, analyze_ai_overview und search_domains — liefern strukturiertes JSON für agentische Clients. Der Endpoint ist zusätzlich über /.well-known/mcp.json und über Meta-Tags im Homepage-<head> auffindbar. Der Zugriff ist anonym, mit einem weichen Rate-Limit von etwa sechzig Requests pro Minute pro IP.
Für menschliche Leser:innen liegt das vollständige Observatory unter gpt-insights.de/ai-state/. Es wird kontinuierlich aktualisiert; die sichtbaren Daten sind nie älter als wenige Stunden.