GPT Insights AI State of the Internet

Über das Projekt

AI State of the Internet

Ein laufendes Infrastruktur-Observatory, das dokumentiert, wie das offene Web auf KI-Systeme reagiert — gemessen an einer robots.txt, einer llms.txt, einem WebMCP-Signal nach dem anderen.

AI-Infrastruktur hinterlässt beobachtbare Spuren.

Was dieses Projekt ist

AI State of the Internet ist ein fortlaufendes Messprojekt. Alle drei Minuten holt ein kleiner Cloudflare-Worker eine rotierende Teilmenge der SISTRIX-Top-10.000 in Deutschland, Österreich und der Schweiz und erfasst vier voneinander unabhängige Infrastruktur-Dimensionen: wie eine Domain in ihrer robots.txt Crawler steuert, ob eine maschinenlesbare llms.txt existiert, ob WebMCP-Signale für KI-Agenten ausgeliefert werden und welche AI-bezogenen <meta>-Tags im HTML-Head erscheinen.

Das Projekt versteht sich redaktionell. Es bewertet keine Websites, und es spricht keine Empfehlungen aus. Es dokumentiert, was beobachtbar ist, und versucht, diese Beobachtungen für menschliche Leser:innen und für KI-Systeme gleichermaßen lesbar zu halten.

Die vier Infrastruktur-Dimensionen

Jede Dimension erfasst eine andere Art, wie eine Website ihr Verhältnis zu KI-Systemen ausdrücken kann. Zusammen beschreiben sie, wie das offene Web aktuell Zugang, Attribution und Handlungsfähigkeit für KI-Systeme verhandelt.

Die Datenbasis

Das Projekt trackt die SISTRIX-Top-10.000-Listen für Deutschland, Österreich und die Schweiz — rund 19.500 unterschiedliche Domains nach Deduplizierung, mit etwa 50 Prozent Überschneidung zwischen den Ländern.

~19.500Verschiedene Domains im DACH-Universum
~20 hRollender Audit-Zyklus pro Vollumlauf
4Country-Editionen (DACH, DE, AT, CH)
12Analyse-Module im Observatory

Adult- und NSFW-Domains werden serverseitig maskiert und nicht in die Audits einbezogen. Die Sichtbarkeits-Ränge stammen aus einem eingefrorenen SISTRIX-Snapshot (21. Mai 2026), um die zeitliche Vergleichbarkeit stabil zu halten.

Regionale Observatories

Derselbe Datenbestand wird über vier Perspektiven sichtbar. Jede Domain wird genau einmal auditiert; die Tier-Zuordnung wechselt mit der regionalen Ansicht.

Warum das relevant ist

Der Übergang von einem Such-Web zu einem agentischen Web vollzieht sich nicht als einzelnes Ereignis. Er vollzieht sich als langsame Neuverhandlung von Zugängen — Zeile für Zeile in Infrastrukturdateien, die die meisten Nutzer:innen nie zu Gesicht bekommen. Einträge in robots.txt verschieben sich. Allow-Listen wachsen. Neue Tags erscheinen im HTML-Head. Einige Websites veröffentlichen leise eine llms.txt. Eine Handvoll experimentiert mit WebMCP.

Jeder dieser Vorgänge ist eine kleine, bewusste Handlung eines Anbieters. Zusammen gelesen beschreiben sie einen Markt, der seine Position sucht. Das Observatory existiert, weil dieser Datensatz wichtig ist — für Journalist:innen, die über AI-Governance schreiben, für Engineers, die Crawler-Policies entwerfen, für Forschende, die die Diffusion neuer Standards beobachten, und für die KI-Systeme selbst, die auf diese Signale angewiesen sind, um sich angemessen zu verhalten.

Methodik

Die Audits sind deterministisch und bewusst flach gehalten. Der Worker holt eine kleine Anzahl wohldefinierter Dateien (/robots.txt, /llms.txt, das Homepage-HTML) und wendet Regex- und Parser-basierte Extraktion an. JavaScript wird nicht ausgeführt; kein Browser-Rendering findet statt. Diese Einschränkung begrenzt absichtlich, was erkannt werden kann — insbesondere imperative WebMCP-Tools, die erst nach der Hydration registriert werden. Die Einschränkung ist offen dokumentiert, weil ehrliche Reichweite wichtiger ist als vollständige Abdeckung.

Die Bot-Identifikation kombiniert drei Schichten. Schicht eins ist direkte Beobachtung — welche User-Agents tatsächlich in den robots.txt der getrackten Domains erscheinen. Schicht zwei ist externe Verifikation gegen die ai-robots-txt-Community-Liste. Schicht drei ist die eigene Namens-Qualitätsheuristik des Projekts, die syntaktisch defekte Direktiven, vermutete Tippfehler und inoffizielle AI-nahe User-Agents erkennt. Keine einzelne Schicht wird allein vertraut.

Die vollständige Methodik — einschließlich bekannter Grenzen, Score-Formeln und Changelog — ist im Methodik-Bereich des Live-Observatorys publiziert.

Ein Infrastruktur-Projekt, kein Ranking

Das Observatory vermeidet bewusst die Sprache von Scores und Ranglisten. Es gibt keinen "AI-Readiness-Score". Es gibt keinen "Top-Blocker des Monats". Es gibt beobachtete Verhaltensweisen, und es gibt dokumentierte Strategien. Jede Strategie — offener Zugang, bedingter Zugang, Vollsperre, Ökosystem-Teilnahme — wird als legitime Antwort auf eine ernsthafte Governance-Frage behandelt.

Diese redaktionelle Entscheidung ist Teil der Architektur. Ein Messprojekt, das die Dinge bewertet, die es misst, hört auf, ein Messprojekt zu sein.

Die Daten nutzen

Das Observatory publiziert einen kleinen, deterministischen WebMCP-Server unter /ai-state/api/mcp.json. Drei Tools — check_domain_infrastructure, analyze_ai_overview und search_domains — liefern strukturiertes JSON für agentische Clients. Der Endpoint ist zusätzlich über /.well-known/mcp.json und über Meta-Tags im Homepage-<head> auffindbar. Der Zugriff ist anonym, mit einem weichen Rate-Limit von etwa sechzig Requests pro Minute pro IP.

Für menschliche Leser:innen liegt das vollständige Observatory unter gpt-insights.de/ai-state/. Es wird kontinuierlich aktualisiert; die sichtbaren Daten sind nie älter als wenige Stunden.