Große Sprachmodelle wie ChatGPT, Gemini oder Claude nutzen unter anderem Daten aus Common Crawl – dem größten frei zugänglichen Webarchiv der Welt. Seit 2008 speichert Common Crawl monatliche Schnappschüsse von Milliarden Webseiten.
Wird deine Seite dort erfasst, bedeutet das:
✔ Sie war für offene Webcrawler technisch zugänglich
✔ Sie wurde in einem globalen Web-Snapshot archiviert
✔ Sie kann theoretisch in zukünftige Modelltrainings einfließen
Wichtig: Dieses Tool zeigt Crawl-Präsenz – nicht Modellgewichtung oder AI-Sichtbarkeit.
Mit dem Common Crawl Decoder prüfst du, ob und wann deine Inhalte im öffentlichen Trainingsarchiv auftauchten.
Wenn deine Seiten in Common Crawl erfasst sind, können sie beim nächsten Training von ChatGPT, Gemini oder Claude einfließen – und damit in AI-Antworten auftauchen.
Ein gemeinnütziges Projekt, das seit 2008 monatlich Milliarden von Webseiten archiviert. Die Daten sind frei zugänglich und werden von vielen KI-Unternehmen genutzt.
War eine Seite beim Crawl online, wurde sie weitergeleitet oder war sie nicht erreichbar? Nur erreichbare Seiten können ins Training einfließen.
Welche Art von Inhalten wurde gefunden – normale Webseiten, Bilder, PDFs oder Daten-Schnittstellen.
Klicke auf eine Zeile in der Tabelle, um alle Informationen zum jeweiligen Eintrag zu sehen.
Die Ergebnisse sind nach URL-Länge sortiert – die wichtigsten Seiten (Startseite, Hauptbereiche) stehen oben.
Nicht jede Website wird gleich stark von Common Crawl erfasst. Entscheidend ist nicht nur, wie viele Backlinks eine Seite hat, sondern vor allem, wie zentral sie im Web-Graphen eingebettet ist.
Die Grafik zeigt den Unterschied zwischen zwei Konzepten: PageRank misst die Autorität einer Website über direkte Inlinks – also wie viele andere Seiten auf dich verlinken. Eine hohe Autorität bedeutet aber nicht automatisch, dass deine Seite zentral im Web liegt. Harmonic Centrality geht einen Schritt weiter: Sie misst, wie nah deine Website am Kern des Webs liegt – also wie viele andere Knoten in nur wenigen Schritten (≤ 2 Hops) erreichbar sind.
Common Crawl priorisiert strukturell zentral eingebettete Domains häufiger. Der Weg zur AI-Sichtbarkeit verläuft über vier Stufen: Web-Graph-Einbettung → Crawl-Priorität → Trainingsdaten-Repräsentation → AI-Sichtbarkeit. Wer in den Trainingsdaten gut vertreten ist, hat bessere Chancen, in den Antworten von ChatGPT, Gemini und Claude aufzutauchen.
Tipp: Mit dem kostenlosen CC Rank Checker von Metehan Yesilyurt kannst du den Harmonic-Centrality-Rang und PageRank deiner Domain im Common-Crawl-Web-Graphen prüfen – inklusive Entwicklung über fünf Zeiträume (2023–2025) und Einordnung in Tier-Klassen (Top 1K bis Top 10M).