Zum Inhalt springen

Common Crawl

aus Wikipedia, der freien Enzyklopädie
Common Crawl
(CC)
Logo
Rechtsform 501(c)(3) (Gemeinnützige) Organisation
Gründung 2007
Gründer Gil Elbaz
Sitz Beverly Hills, CA 90210, USA
Schwerpunkt Web-Archivierung
Umsatz 1.297.813 US-Dollar (2023)
Website commoncrawl.org

Common Crawl ist eine 501(c)(3)-Nonprofit-Organisation, die öffentliche Webseiten ausliest, archiviert und die so gewonnenen Daten verfügbar macht.[1] Sie wurde 2007 von Gil Elbaz gegründet. Ein erster Crawl wurde 2011 veröffentlicht, seit 2013 archiviert die Organisation monatlich Webseiten.[2] Bereits 2017 umfasste ein Monatsarchiv über 280 TebiByte (TiB),[1] 2025 betrug die unkomprimierte Größe eines Monatsarchives über 420 TiB.[3]

Die Webcrawls umfassen große Mengen urheberrechtlich geschützter Daten und können in den USA unter Fair-Use-Richtlinien genutzt werden. In anderen Ländern ist die Nutzung rechtlich schwieriger, weshalb spezielle Verarbeitungsformate entwickelt wurden, um eine Verbreitung der Archive unter der jeweiligen Jurisdiktion zu erlauben.[4]

Ziel ist die Unterstützung von Forschung und Technologieentwicklung, indem große Datenmengen erzeugt und bereitgestellt werden, die ansonsten nur Großkonzernen zugänglich wären.[5]

Inhalte und Verwendung

[Bearbeiten | Quelltext bearbeiten]

Common Crawl archiviert im Monatsrhythmus Webseiten, die nicht durch eine entsprechende Direktive in der robots.txt von der Erfassung ausgeschlossen werden. Die Daten werden im warc-Format komprimiert und gespeichert.[6] Stand Oktober 2025 sind ungefähr 44,8 % der erfassten Inhalte englischsprachig, es folgen russisch (5,8 %) und deutsch (5,6 %).[7]

Zu den Webseiteninhalten legt Common Crawl auch Netzwerkgraphen an, die Verweisstrukturen auf Hostebene abbilden. 2024 umfassten diese Analysen über 480 Millionen Netzwerkknoten und 3,4 Milliarden Verbindungen,[2] die ebenfalls frei zur Verfügung gestellt werden.

Die Archive werden unter anderem durch das AWS Open Data Sponsorship Program von Amazon zur Verfügung gestellt,[8] das Internet Archive legt ebenso Mirrors der Common Crawl-Archive an.[9] In Deutschland hostet die Hochschule Hof einen deutschen Teilkorpus,[10] den German colossal, cleaned Common Crawl corpus.[11]

Genutzt werden die Archive unter anderem von Google, die mit einem bereinigten Datenset der Common Crawl-Archive ihre Sprachmodelle trainierten.[12] Ebenso verwendete OpenAI den Common Crawl zum Training ihres Sprachmodells GPT-3.[13] 2024 ergab eine Untersuchung der Mozilla Foundation, dass ein Großteil der gängigen Sprachmodelle die Common Crawl-Archive für das Training verwendeten, die zu diesem Zeitpunkt ein Volumen von über neun Petabyte umfassten.[5] Die Daten sind indessen nicht unbedingt zum direkten Training von Sprach- und KI-Modellen geeignet, da sie nicht kuratiert werden und auch Hassrede oder pornografische Inhalte beinhalten. Dennoch gelte Common Crawl als eine der „wichtigsten Quellen für Trainingsdaten für Large Language Models“ (englisch „most important sources of pre-training data for large language models (LLMs)“) und werde so intensiv genutzt, dass sie ein maßgeblicher Baustein zur Entwicklung großer Sprachmodelle und daraus entwickelter Plattformen für generative AI geworden sei.[14]

Common Crawl-Daten spielen auch im Online-Marketing eine Rolle, da sie neben Google und OpenAI auch beispielsweise von Grok, DeepSeek und Meta AI verwendet werden und angenommen wird, dass das Vorkommen einer Webseite in Common Crawl-Archiven ihre Nennung in KI-Antworten begünstigt.[2]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b Kalev Leetaru: Common Crawl And Unlocking Web Archives For Research. In: Forbes. 28. September 2017, abgerufen am 23. Oktober 2025 (englisch).
  2. a b c Brett Tabke: What is the Common Crawl Database, and Why should a Site Owner Care? In: SearchEngineWorld. 25. September 2025, abgerufen am 23. Oktober 2025 (amerikanisches Englisch).
  3. Thom Vaughan: Common Crawl - Blog - September 2025 Crawl Archive Now Available. 22. September 2025, abgerufen am 23. Oktober 2025 (englisch).
  4. Roland Schäfer: CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). European Language Resources Association (ELRA), Portorož, Slovenia Mai 2016, S. 4500–4504 (aclanthology.org [abgerufen am 23. Oktober 2025]).
  5. a b Stefan Baack et al.: Training Data for the Price of a Sandwich: Common Crawl’s Impact on Generative AI. Mozilla Foundation, 6. Februar 2024, abgerufen am 23. Oktober 2025 (englisch).
  6. Common Crawl - Blog - New Crawl Data Available! Common Crawl Foundation, 27. November 2013, abgerufen am 23. Oktober 2025 (englisch).
  7. Statistics of Common Crawl Monthly Archives by commoncrawl. Abgerufen am 23. Oktober 2025 (englisch).
  8. AWS Marketplace: Common Crawl. In: Amazon AWS. Abgerufen am 23. Oktober 2025 (englisch).
  9. Internet Archive: Common Crawl Web crawl data from Common Crawl. In: Internet Archive. Internet Archive, abgerufen am 23. Oktober 2025.
  10. Common Crawl German – IISYS OpenData. In: iisys.de. Institut für Informationssysteme der Hochschule Hof, abgerufen am 23. Oktober 2025.
  11. Philip May, Philipp Reißel: GC4 Corpus — German NLP Group documentation. Abgerufen am 23. Oktober 2025 (englisch).
  12. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 19. September 2023, abgerufen am 23. Oktober 2025.
  13. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. 22. Juli 2020, abgerufen am 23. Oktober 2025.
  14. Stefan Baack: A Critical Analysis of the Largest Source for Generative AI Training Data: Common Crawl. ACM, 2024, ISBN 979-84-0070450-5, S. 2199–2208, doi:10.1145/3630106.3659033 (acm.org [abgerufen am 23. Oktober 2025]).