Large Language Model
Ein Großes Sprachmodell (GSM), englisch Large Language Model (LLM), ist eine Art Sprachmodell (englisch language model), das sich durch seine Fähigkeit auszeichnet, menschenähnliche Sprache für allgemeine Zwecke zu zu verstehen, zu generieren und darauf zu reagieren. Es kann Textverarbeitungsaufgaben durchführen, Fragen beantworten, Konversationen führen, Texte generieren und vieles mehr.
Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung quantitativ riesiger Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viele Rechenressourcen.[1] Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze (im Grunde genommen Transformer[2]) und werden (a priori) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert.
Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Verstehen, Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen.[3] Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung. Größere Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ähnliche Ergebnisse erzielen können.[4] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und "Ontologie" in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass Große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[5]
Siehe auch
Weblinks
Einzelnachweise und Fußnoten
- ↑ Better Language Models and Their Implications
- ↑ What Is a Transformer Model?
- ↑ Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 9789819972234, S. 317 ff. (hier S. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models
- ↑ Language Models are Few-Shot Learners
- ↑ vgl. Human Language Understanding & Reasoning