Zum Inhalt springen

Modellkollaps

aus Wikipedia, der freien Enzyklopädie

Modellkollaps bei maschinellem Lernen, respektive künstlicher Intelligenz kann bei generativen Modellen auftreten, falls unkontrolliertes zusätzliches Training mit Resultaten anderer Modelle oder früherer Versionen desselben Modells durchgeführt wird.[1][2] Solche Resultate / Ausgaben werden im Gegensatz zu noch nicht von KI-Modellen verwendeten Eingaben als synthetische Daten bezeichnet.[3] Dadurch kann allmählich ein Modell an Leistungsfähigkeit verlieren bis hin zu seinem Kollaps.[4] Modellkollaps kann bei verschiedenartigen Modellen auftreten. Neben LLMs wie bei GPT[5] wurde dieses Phänomen auch beim einfachen, eindimensionalen Gauss-Modell, multidimensionalen Gauss-Modellen,[1] linearer Regression[6] und statistischen Sprachmodellen.[7]

Alternative Bezeichnungen für Modellkollaps sind algorithmische Inzucht[8] oder katastrophales Vergessen.

Es wurden zwei Stadien der Verschlechterung unterschieden: früher Modellkollaps und später Modellkollaps. Beim frühen Modellkollaps verliert das Modell Informationen aus seltener auftretenden Randgebieten. Dieses Stadium ist weniger offensichtlich, weil die Gesamtleistung des Modells kaum beeinträchtigt wird. Beim späten Modellkollaps verliert das Modell einen signifikanten Teil seiner Leistungsfähigkeit, verwechselt Konzepte und verliert den größten Teil seiner Variabilität.[1]

Gefahr durch Modellkollaps bei der Akkumulierung von Daten kann vermindert werden.

Ein experimentell durchgeführter Extremfall war ein Modellkollaps, bei welchem wiederholt Resultate/Ausgaben des Modells iterativ wieder als Lerndaten in dasselbe Modell eingespeist wurden. In diesem Extremfall spricht man von einer vollsynthetischen Schleife.[9] Dadurch verlor das Modell zunehmend seine Fähigkeit zur Generierung sinnvoller, differenzierter Ausgaben bis hin zur Unbrauchbarkeit.[1]

In der realen Welt warnen Forscher und Kommentatoren, dass dieses Phänomen die zukünftige Entwicklung generativer KI grundlegend bedrohen könnte.[10][11] Gefährdet sind insbesondere Modelle, welche fortlaufend neue Daten erfassen und als zusätzliche Lerndaten verwenden. Da KI-generierte Daten (synthetische Daten) im Internet geteilt werden, landen sie in zukünftigen Trainingsdatensätzen, die oft aus dem Internet zusammengestellt werden. Bei der Auswahl von Trainingsdaten werden teilweise Filter verwendet, welche Duplikate nicht berücksichtigen. Es wird auch versucht, KI-erstellte Daten zu kennzeichnen und sie bei weiteren Lernprozessen auszusortieren.[12] Andere Forscher zeigten, dass ein Modellkollaps vermieden wird, wenn sich synthetische Daten neben bestimmten menschlich generierten Daten ansammeln wie dies bei synthetischen Verstärkerschleifen oder frischen Datenschleifen der Fall ist.[9][13] Die Forscher argumentieren, dass die Akkumulation von Daten über die Zeit eine realistischere Beschreibung der Realität sei als das jährliche Löschen aller vorhandenen Daten und dass die tatsächlichen Auswirkungen des Modellkollapses möglicherweise nicht so katastrophal sind, wie befürchtet.[14][15]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b c d Ilia Shumailov, Zakhar Shumaylov et al.: AI models collapse when trained on recursively generated data In: Nature Nr. 631, 25. Juli 2024, S. 755–759. Abgerufen am 14. Mai 2025 (englisch)
  2. Ilkhan Ozsevim: Research finds ChatGPT & Bard headed for Model Collapse In: AI Magazine 20. Juni 2023. Abgerufen am 14. Mai 2025 (englisch)
  3. Eva-Maria Weiss: Modellkollaps – wie synthetische Daten KI killen können. heise.de, 26. Juli 2024, abgerufen am 14. Mai 2025
  4. Aatish Bhatia: When A.I.’s Output Is a Threat to A.I. Itself In: New York Times 26. August 2024. Abgerufen am 14. Mai 2025 (englisch)
  5. Yanzhu Guo et al.: The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text. arXiv:2311.09807, 16. November 2023. Abgerufen am 14. Mai 2025 (englisch)
  6. Elvis Dohmatob et al.: Model Collapse Demystified: The Case of Regression. arXiv:2402.07712v2, 30. April 2024. Abgerufen am 14. Mai 2025 (englisch)
  7. Mohamed El Amine Seddik et al.: How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse. arXiv:2404.05090, 7. April 2024. Abgerufen am 14. Mai 2025 (englisch)
  8. Wie KI-Inzucht zum Zusammenbruch von Modellen bei Tools wie ChatGPT und Microsoft Copilot führen kann windows-office.net, abgerufen am 14. Mai 2025
  9. a b Alexandra Hüsler: Drohender KI-Kollaps wegen KI-generierter Trainingsdaten. In: Netzwoche 6. August 2024. Abgerufen am 14. Mai 2025
  10. Wenn sich die KI selbst in den Schwanz beisst. In: St. Galler Tagblatt, 3. August 2023, abgerufen am 14. Mai 2025
  11. Bernard Marr: Why AI Models Are Collapsing And What It Means For The Future Of Technology In: Forbes 19. August 2024. Abgerufen am 14. Mai 2025 (englisch)
  12. John Kirchenbauer et al.: A Watermark for Large Language Models In: Proceedings of the 40th International Conference on Machine Learning PMLR 202:17061-17084, 2023. Abgerufen am 14. Mai 2025 (englisch)
  13. Carl Geisler: Die KI-Rückkopplungsschleife: Die Qualität der Modellproduktion im Zeitalter der KI-generierten Inhalte aufrechterhalten KI-Techlab, 25. Juli 2023, abgerufen am 14. Mai 2025
  14. Thomas Claburn: What is Model Collapse and how to avoid it In: The Register 26. Januar 2024. Abgerufen am 14. Mai 2025 (englisch)
  15. Matthias Gerstgrasser et al.: Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data arXiv:2404.01413, 29. April 2024, Abgerufen am 14. Mai 2025 (englisch)