Zum Inhalt springen

Large Language Model

aus Wikipedia, der freien Enzyklopädie

Ein Large Language Model, kurz LLM (englisch, teilweise übertragen großes Sprachmodell), ist die Software-technische Realisierung eines mathematischen Sprachmodells, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet. Es handelt sich um ein sogenanntes computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat diese Fähigkeiten seinem Benutzer oder in einer anderen Anwendung zur Verfügung stellt.[1]

Große Sprachmodelle erlangen ihre Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.[2] Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze und werden (a priori) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Für diese neutronalen Netze werden seit etwa dem Jahr 2024 häufig Transformer als Architektur gewählt.[3] Bekanntheit haben dabei die Generative Pretrained Transformer (GPT) erlangt.

Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die „verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.[4][5]

Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der sogenannten Feinabstimmung.[6] Größere Modelle, wie z. B. das inzwischen populäre LLM GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe des sogenannten „Prompt Engineering” ähnliche Ergebnisse erzielen können.[7] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[8]

Umsetzungen der LLM

[Bearbeiten | Quelltext bearbeiten]

Beispiele für LLM Software oder Services oder Apps sind Open Assistant, ChatGPT, Ernie Bot und Grok. Die Services sind dabei wie ein Chat aufgebaut, der mit seinem Benutzer kommuniziert, auch bekannt als Chatbot.

GPT-Modelle (Auswahl)

[Bearbeiten | Quelltext bearbeiten]

Zu den großen Sprachmodellen zählen die folgenden GPT-Modelle:

Daneben gibt es auch leistungsfähige LLMs chinesischer Firmen wie diejenigen von Alibaba, DeepSeek, 01 AI und Zhipu AI.[9]

LLMs werden in verschiedenen IT-Umgebungen bzw. Systemen (vgl. Cloud) im Zuge von Onlineservices von verschiedenen Internetdienstleistern angeboten. Letztere sind meist als Startups oder Innovationsabteilungen in Organisationen oder Unternehmen aufgestellt. Die Lizenzen in Bezug auf die Fähigkeiten, Nutzung und Datenverarbeitung der verschiedenen Modelle und Services reichen von proprietär über Open Source bis hin zu anderen. In diesem Zusammenhang spielt auch der Datenschutz eine übergeordnete Rolle.

Entstehung und Entwicklung

[Bearbeiten | Quelltext bearbeiten]

Auf der „Conference on Neural Information Processing Systems“ (NeurIPS) 2017 stellten Google-Forscher unter Ashish Vaswani eine neue Transformer-Architektur vor.[10][11] Ziel dieser Veröffentlichung war es, die sogenannte „Seq2seq“-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem entwickelten „englisch attention mechanism ‚Aufmerksamkeitsmechanismus‘“.[12] Im darauffolgenden Jahr 2018 wurden die Bidirectional Encoder Representations from Transformers (BERT) eingeführt und schnell „allgegenwärtig“. Obwohl der ursprüngliche Transformator sowohl Encoder- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.[13]

Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte GPT-2 im Jahr 2019 große Aufmerksamkeit, da OpenAI es zunächst als zu leistungsfähig erachtete, um es aus Angst vor böswilliger Nutzung zu veröffentlichen. GPT-3 im Jahr 2020 ging noch einen Schritt weiter und ist ab 2024 nur noch über eine API verfügbar, ohne die Möglichkeit, das Modell zur lokalen Ausführung herunterzuladen. Es war das browserbasierte ChatGPT aus dem Jahr 2022, das „die Welt komplett veränderte“.[14] 2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.[15] OpenAI gab die High-Level-Architektur und die Anzahl der Parameter des GPT-4 nicht bekannt.

In der Zwischenzeit haben konkurrierende Sprachmodelle größtenteils mit der GPT-Serie gleichgezogen, zumindest was die Anzahl der Parameter betrifft.[16] Zu den bemerkenswerten Ausnahmen in Bezug auf die Anzahl der Parameter gehören Googles T5-11B von 2019 und PaLM-E von 2022.

Seit 2022 erfreuen sich Open-Source-Modelle zunehmender Beliebtheit, zunächst vor allem BLOOM und LLaMA, die allerdings beide Einschränkungen im Einsatzbereich aufweisen. Im Januar 2024 war Mixtral 8x7b von Mistral AI laut dem LMSYS Chatbot Arena Leaderboard das leistungsfähigste offene LLM, leistungsfähiger als GPT-3.5, aber nicht so leistungsfähig wie GPT-4.[17]

Am 26. Januar 2024 übertraf Googles Gemini Pro das GPT-4,[18] was die Elo-Bewertung betrifft. Letztere wird im Umfeld von LLM zum Benchmarking verwendet.

LLM sind rechenintensive Software-Anwendungen. Dafür kommen modernste Prozessorgeneration bzw. spezialisierte Mehrkernprozessoren (vgl. auch Koprozessoren), wie beispielsweise Grafikprozessoren (in Form von Grafik- oder spezialisierten Prozessorkarten), die besonders gut für Fließkommaoperationen (vgl. IEEE 754) geeignet sind, zum Einsatz. In diesem Zusammenhang sei auch erwähnt, dass die neue Technologie der LLMs zu erheblichen wirtschaftlich-politischen Auseinandersetzungen führt. Die Medien sprechen von einem „Wettrüsten” im Zuge einer „Chipkrise” (siehe dort), was nicht nur die fertigen Endprodukte betrifft, sondern auch die Halbleitermaschinen in der Fertigung (vgl. TSMC, ASML; siehe auch EUV-Lithografie). Dies äußert sich in sicherheitskritischen Eingriffen der Politik, beispielsweise beim Export von Hardware.

Neben diesen Grafikprozessoren gibt es bereits Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen optimiert sind.

In dem Jahr 2016 wurde beispielsweise von Google die erste Version ihres Tensor Processing Unit (TPU) Systems vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Computerherstellern mit Spezial-Hardware für die Verwendung von LLMs. So haben beispielsweise die Unternehmen Cerebras den CS-1, CS-2 und CS-3, AMD die Instinct-Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.

Multimodal Learning

[Bearbeiten | Quelltext bearbeiten]

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:[19]

  • Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.
  • Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten große Fortschritte beim Verständnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.
  • Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.
  • Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

[Bearbeiten | Quelltext bearbeiten]

Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP). Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.

Vortrainierte Vision-Modelle bieten eine qualitativ hochwertige visuelle Darstellung. Vortrainierte Sprachmodelle, insbesondere große Sprachmodelle, bieten leistungsstarke Fähigkeiten zur Sprachgenerierung und Zero-Shot-Übertragung. Um die Kosten zu senken und dem Problem des katastrophalen Vergessens entgegenzuwirken, bleiben die unimodalen vortrainierten Modelle während des Vortrainings eingefroren. Weil große Sprachmodelle jedoch während ihres unimodalen Vortrainings keine Bilder gesehen haben, macht das Einfrieren die visuelle Sprachausrichtung besonders schwierig.[20]

Skalierungsgesetze

[Bearbeiten | Quelltext bearbeiten]

Passt man für jede Modalität die sieben Parameter der Gleichung

an und minimiert

für , wobei der Standard-Huberverlust für jeden Durchlauf und Modalität ist. Man setzt dann , , . Um die optimalen Minima zu identifizieren, verwendet man das BFGS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalität sind im Einzelnachweis verfügbar. Die Parameter für jede Modalität variieren erheblich.[21]

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen. Man spricht auch von einem sogenannten englisch model collapse Modellkollaps.

Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d. h. dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch Webscraping erlangten Daten erscheint bisher als zu aufwändig.[22]

  • Endre Pap (Hrsg.): Artificial Intelligence: Theory and Applications (= Studies in Computational Intelligence. Band 973). Springer International Publishing, Cham 2021, ISBN 978-3-03072710-9, doi:10.1007/978-3-030-72711-6 (englisch).
  • Sabine Seufert, Siegfried Handschuh (Hrsg.): Generative Künstliche Intelligenz: ChatGPT und Co für Bildung, Wirtschaft und Gesellschaft. 1. Auflage. Schäffer-Poeschel Verlag, Stuttgart [Freiburg] 2024, ISBN 978-3-7910-6220-4.
  • Jürgen Franke, Anita Schöbel (Hrsg.): Statistical Machine Learning for Engineering with Applications (= Lecture Notes in Statistics. Band 227). Springer Nature Switzerland, Cham 2024, ISBN 978-3-03166252-2, doi:10.1007/978-3-031-66253-9 (englisch).
  • Wolfgang Ertel: Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung (= Computational Intelligence). Springer Fachmedien Wiesbaden, Wiesbaden 2025, ISBN 978-3-658-44954-4, doi:10.1007/978-3-658-44955-1.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Patricia Kelbert, Dr Julien Siebert, Lisa Jöckel: Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? - Blog des Fraunhofer IESE. In: Fraunhofer IESE. 12. Dezember 2023, abgerufen am 8. November 2025.
  2. Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).
  3. Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
  4. Guandong Feng et al.: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. Band 1923. Springer Nature Singapore, Singapore 2023, ISBN 978-981-9972-23-4, S. 317–326, doi:10.1007/978-981-99-7224-1_25 (englisch, springer.com [abgerufen am 8. November 2025]).
  5. Samuel R. Bowman: Eight Things to Know about Large Language Models. In: ArXiv. 2. April 2023, abgerufen am 8. November 2025 (englisch).
  6. Was ist Feinabstimmung? | IBM. 15. März 2024, abgerufen am 10. Dezember 2024.
  7. Tom B. Brown et al.: Language Models are Few-Shot Learners. 22. Juli 2020, abgerufen am 8. November 2025 (englisch).
  8. Human Language Understanding & Reasoning. 13. April 2022, abgerufen am 15. Januar 2024 (englisch).
  9. Markus Städeli: Das sind die besten KI-Sprachmodelle und viele stammen auch China. 14. Dezember 2024, abgerufen am 8. November 2025.
  10. Ashish Vaswani et al.: Attention Is All You Need. 2. August 2023, abgerufen am 8. November 2025.
  11. Rob Toews: Transformers Revolutionized AI. What Will Replace Them? In: Forbes. 3. September 2023, abgerufen am 5. Februar 2024 (englisch).
  12. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. 19. Mai 2016, abgerufen am 8. November 2025.
  13. Nico Litzel, Stefan Luber: Was ist BERT? In: Bigdata Insider. Vogel Communications Group, 10. Mai 2022, abgerufen am 8. November 2025.
  14. ChatGPT turns 1: How the AI chatbot has completely changed the world. 30. November 2023, abgerufen am 5. Februar 2024 (englisch).
  15. GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why. Abgerufen am 5. Februar 2024 (englisch).
  16. Parameters in notable artificial intelligence systems. Our World in Data, 3. April 2024, abgerufen am 16. Mai 2024 (britisches Englisch).
  17. LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys. Abgerufen am 5. Februar 2024.
  18. Siddharth Jindal: Google's Gemini Pro Beats GPT-4. 27. Januar 2024, abgerufen am 5. Februar 2024 (amerikanisches Englisch).
  19. Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).
  20. Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023, doi:10.48550/ARXIV.2301.12597, arxiv:2301.12597.
  21. Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.
  22. Ilia Shumailov et al.: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) – (englisch, nature.com [abgerufen am 27. Juli 2024]).