Diskussion:Large Language Model
Abschnitt hinzufügenLemma
[Quelltext bearbeiten]Mit der Umstellung des Seitentitels auf die Kleinschreibung und die Beseitigung der deutschen Abkürzung bin ich als Artikelersteller nicht einverstanden. --Arbre à palabres (Diskussion) 20:23, 14. Jan. 2024 (CET)
- Anmerkung wg. 3M: Es geht nicht nur um den Seitentitel sondern um das Lemma ansich [1]. --PM3 21:26, 14. Jan. 2024 (CET)
- Per Google-Books-Recherche in der deutschsprachigen Literatur ist die Kleinschreibung gebräuchlicher, und die Abkürzung "GSM" ist mir dort bislang nicht begegnet. --PM3 20:26, 14. Jan. 2024 (CET)
- Es gibt die Abk. aber, ganz offenbar. --Arbre à palabres (Diskussion) 20:31, 14. Jan. 2024 (CET) PS: Eine Kleinschreibung zu bevorzugen, halte ich für ungeeignet, da ich das Ganze als Fachbegriff sehe.
- Wie du es siehst, ist allerdings für die Wikipedia irrelevant. :-)
- Die Schreibweise "Großes Sprachmodell" ist in der Sekundärliteratur fast nichtexistent (außer am Satzanfang), das korrekte Lemma ist eindeutig "großes Sprachmodell" [2]. Auch in Wikipedia-Artikeln wurde es durchgehend kleingeschrieben, bevor du da heute drübergingst und alles in groß geändert hast. Das habe ich aus vorgenanntem Grund wieder zurückgesetzt.
- Die Abkürzung "GSM" scheint in der Sekundärliteratur ebenfalls fast nichtexistent zu sein, daher mMn bei weitem noch kein etabliertes Wissen, wie wir es in der Wikipedia darstellen. Die Verwendung nicht etablierter Termini wäre WP:Begriffsetablierung. --PM3 20:58, 14. Jan. 2024 (CET)
- M.E. sollte hier analog zu "Großer Panda" verfahren werden. --Arbre à palabres (Diskussion) 21:03, 14. Jan. 2024 (CET) PS: Langfristig sollte hier vielleicht eine Dritte Meinung (in Großschreibung!) eingeholt werden, da für Wikipedia letztendlich ja auch irrelevant ist, wie du es siehst.
- Der Verweis auf andere Wikipedia-Artikel ist (auch per WP:WPIKQ) nie ein valides Argument. Über das Lemma wird im Zweifelsfall immer individuell anhand externer Quellen entschieden. Gerne 3M. --PM3 21:08, 14. Jan. 2024 (CET)
- M.E. sollte hier analog zu "Großer Panda" verfahren werden. --Arbre à palabres (Diskussion) 21:03, 14. Jan. 2024 (CET) PS: Langfristig sollte hier vielleicht eine Dritte Meinung (in Großschreibung!) eingeholt werden, da für Wikipedia letztendlich ja auch irrelevant ist, wie du es siehst.
- Es gibt die Abk. aber, ganz offenbar. --Arbre à palabres (Diskussion) 20:31, 14. Jan. 2024 (CET) PS: Eine Kleinschreibung zu bevorzugen, halte ich für ungeeignet, da ich das Ganze als Fachbegriff sehe.
- 3M Sämtliche im Artikel angegebenen Belege und der Weblink sprechen von Large Language Model. Warum ist das dann nicht das Lemma?--Perfect Tommy (Diskussion) 21:29, 14. Jan. 2024 (CET)
- Weil ich bislang das Gefühl hatte, hier in der deutschsprachigen Wikipedia zu sein (und es den Begriff im Deutschen ja bereits gibt). --Arbre à palabres (Diskussion) 21:32, 14. Jan. 2024 (CET) PS: Warum steht Sprachmodell dann nicht auf language model?
- Auch im Deutschen wird der englische Begriff bevorzugt benutzt. --Perfect Tommy (Diskussion) 21:35, 14. Jan. 2024 (CET)
- Und warum verschiebt ihr das andere Lemma dann nicht? ;) - Eben, weil das deutschsprachige Sinn macht. --Arbre à palabres (Diskussion) 21:39, 14. Jan. 2024 (CET) PS: Mal am Rande gefragt: wie übersetzt Du beispielsweise a big large language model ins Deutsche?
- Auch im Deutschen wird der englische Begriff bevorzugt benutzt. --Perfect Tommy (Diskussion) 21:35, 14. Jan. 2024 (CET)
- Weil ich bislang das Gefühl hatte, hier in der deutschsprachigen Wikipedia zu sein (und es den Begriff im Deutschen ja bereits gibt). --Arbre à palabres (Diskussion) 21:32, 14. Jan. 2024 (CET) PS: Warum steht Sprachmodell dann nicht auf language model?
- Per Literatur- und Web-Recherche: "Large Language Model" ist in der deutschsprachigen Fachliteratur weitaus gebräuchlicher, aber "großes Sprachmodell" ist in der Allgemeinsprache weitaus gebräuchlicher. Hier plädiere ich im Sinn von WP:Laie und deWP klar für den bereits etablierten deutschen Begriff. --PM3 21:44, 14. Jan. 2024 (CET)
- Warum begegnet die Abkürzung GSM ausschließlich in Großschreibung (und nicht in der Form gSM)? --Arbre à palabres (Diskussion) 21:51, 14. Jan. 2024 (CET) PS: Und dies, obwohl es im Deutschen ja auch klein beginnende Abkürzungen gibt (z.B. kW)?
- Spielt hier keine Rolle, für solche Fragen ist die WP:Auskunft zuständig. Bitte dringend WP:NK und WP:TF lesen und verinnerlichen, du argumentierst hier bislang komplett an den Wikipedia-Regeln vorbei. --PM3 22:14, 14. Jan. 2024 (CET)
- Nein, überhaupt nicht. --Arbre à palabres (Diskussion) 22:25, 14. Jan. 2024 (CET) Eine (deutsche) Kleinschreibung eines Fachbegriffes im Lemma halte ich dagegen für abenteuerlich.
- Warum begegnet die Abkürzung GSM ausschließlich in Großschreibung (und nicht in der Form gSM)? --Arbre à palabres (Diskussion) 21:51, 14. Jan. 2024 (CET) PS: Und dies, obwohl es im Deutschen ja auch klein beginnende Abkürzungen gibt (z.B. kW)?
- Per Literatur- und Web-Recherche: "Large Language Model" ist in der deutschsprachigen Fachliteratur weitaus gebräuchlicher, aber "großes Sprachmodell" ist in der Allgemeinsprache weitaus gebräuchlicher. Hier plädiere ich im Sinn von WP:Laie und deWP klar für den bereits etablierten deutschen Begriff. --PM3 21:44, 14. Jan. 2024 (CET)
3M: Unabhängig davon, wie es nun im Fließtext geschrieben wird, ist der Anfangsbuchstabe des Seitentitels entsprechend der Rechtschreibregeln für Überschriften grundsätzlich groß, siehe dazu auch Wikipedia:Namenskonventionen#Groß- und Kleinschreibung des Anfangsbuchstabens. Besten Gruß --Emberwit (Diskussion) 23:11, 14. Jan. 2024 (CET)
- Ok, ist korrigiert. --PM3 23:18, 14. Jan. 2024 (CET)
- Ok, dann wird jetzt bitte nur noch die Frage der Groß- bzw. Kleinschreibung des Fachbegriffes innerhalb des Artikels sowie die Beseitigung der deutschen Abkürzung diskutiert. --Arbre à palabres (Diskussion) 23:29, 14. Jan. 2024 (CET) PS: Die Frage oben, wie beispielsweise a big large language model ins Deutsche übersetzt wird, ist übrigens noch unbeantwortet ...
- Für die Schreibweise im Text sollte sich an der Häufigkeit in der Literatur orientiert werden. Eine kurze Google-Books- und Google-Scholar-Recherche lässt hier eigentlich wenig Spielraum und spricht für das kleingeschriebene "große Sprachmodell" (anders als bspw. beim Großen Panda). Auch im Englischen wird der Ausdruck large language model kleingeschrieben, trotz Abkürzung als LLM. Gruß --Emberwit (Diskussion) 23:36, 14. Jan. 2024 (CET)
- Und warum wird es dann immer mit GSM abgekürzt (d.h. nicht mit gSM)? --Arbre à palabres (Diskussion) 23:42, 14. Jan. 2024 (CET) PS: Inzwischen ist eine solche Fachbegriffsschreibung im Deutschen m.E. auch üblich. Der Fachbegriff ist so im Text einfach besser erkenntlich (schließlich gibt es ja auch den Begriff Sprachmodell).
- Wo wird es denn "immer mit GSM" abgekürzt? Die eine von dir verlinkte Quelle oben reicht m. E. nicht für ein Anführen der Abkürzung im Artikel, zumal das keine Fachliteratur ist. --Emberwit (Diskussion) 23:45, 14. Jan. 2024 (CET)
- Z.B. Uni Potsdam: In den letzten Jahren sind insbesondere sog. Große Sprachmodelle (GSM) entwickelt worden usw. --Arbre à palabres (Diskussion) 23:47, 14. Jan. 2024 (CET) PS: Und jetzt zeigt mir bitte eine einzige Verwendung von gSM.
- Wie ich oben bereits erwähnte, ist die Abkürzung "GSM" in der Sekundärliteratur kaum existent, d.h. nicht etabliert und für die Wikipedia nicht relevant, und unabhängig davon für das Lemma ohnehin nicht relevant, denn das wird ausschließlich per WP:NK ermittelt. --PM3 23:54, 14. Jan. 2024 (CET)
- Die Abkürzung wird jedenfalls häufig genug verwendet, um hier genannt werden zu können (d.h. richtig ist sie daher auch). --Arbre à palabres (Diskussion) 00:09, 15. Jan. 2024 (CET) PS: Und die schnellere Hinlenkung auf den richtigen Fachbegriff erfolgt in einem Fließtext mit der Schreibung Großes Sprachmodell (GSM) auch - zumal es ja auch den Begriff Sprachmodell gibt (daher verstehe ich auch Sinn & Absicht einer Änderung wie dieser nicht, womit ja auf ein ganz anderes Lemma gelenkt wird).
- 3M: Ich kenne mich nicht genug mit der Marterie aus, um fachlich beizutragen, aber die Schreibweise der Abkürzung ist mMn. kein Argument. Es gibt durchaus andere Abkürzungen die Großbuchstaben verwenden, obwohl das abgekürzte Wort kleingeschrieben wird, z. B. ÖPNV oder AGB. Sprache ist nicht einheitlich, aus dem großen G in der Abkürzung kann man keine Großschreibung der Langform ableiten. --MaligneRange (Diskussion) 08:46, 15. Jan. 2024 (CET)
- Eine einzige Quelle wäre für mich definitiv nicht "häufig genug". Wir müssen aufpassen, diese Abkürzung nicht als etablierter darzustellen, als sie ist. Sprich nicht wir etablieren sie, sondern erst wenn sie breite Anwendung in der Fachliteratur findet, nehmen auch wir sie auf. --Emberwit (Diskussion) 11:43, 15. Jan. 2024 (CET)
- Die Abkürzung wird jedenfalls häufig genug verwendet, um hier genannt werden zu können (d.h. richtig ist sie daher auch). --Arbre à palabres (Diskussion) 00:09, 15. Jan. 2024 (CET) PS: Und die schnellere Hinlenkung auf den richtigen Fachbegriff erfolgt in einem Fließtext mit der Schreibung Großes Sprachmodell (GSM) auch - zumal es ja auch den Begriff Sprachmodell gibt (daher verstehe ich auch Sinn & Absicht einer Änderung wie dieser nicht, womit ja auf ein ganz anderes Lemma gelenkt wird).
- Wie ich oben bereits erwähnte, ist die Abkürzung "GSM" in der Sekundärliteratur kaum existent, d.h. nicht etabliert und für die Wikipedia nicht relevant, und unabhängig davon für das Lemma ohnehin nicht relevant, denn das wird ausschließlich per WP:NK ermittelt. --PM3 23:54, 14. Jan. 2024 (CET)
- Z.B. Uni Potsdam: In den letzten Jahren sind insbesondere sog. Große Sprachmodelle (GSM) entwickelt worden usw. --Arbre à palabres (Diskussion) 23:47, 14. Jan. 2024 (CET) PS: Und jetzt zeigt mir bitte eine einzige Verwendung von gSM.
- Wo wird es denn "immer mit GSM" abgekürzt? Die eine von dir verlinkte Quelle oben reicht m. E. nicht für ein Anführen der Abkürzung im Artikel, zumal das keine Fachliteratur ist. --Emberwit (Diskussion) 23:45, 14. Jan. 2024 (CET)
- Und warum wird es dann immer mit GSM abgekürzt (d.h. nicht mit gSM)? --Arbre à palabres (Diskussion) 23:42, 14. Jan. 2024 (CET) PS: Inzwischen ist eine solche Fachbegriffsschreibung im Deutschen m.E. auch üblich. Der Fachbegriff ist so im Text einfach besser erkenntlich (schließlich gibt es ja auch den Begriff Sprachmodell).
- Für die Schreibweise im Text sollte sich an der Häufigkeit in der Literatur orientiert werden. Eine kurze Google-Books- und Google-Scholar-Recherche lässt hier eigentlich wenig Spielraum und spricht für das kleingeschriebene "große Sprachmodell" (anders als bspw. beim Großen Panda). Auch im Englischen wird der Ausdruck large language model kleingeschrieben, trotz Abkürzung als LLM. Gruß --Emberwit (Diskussion) 23:36, 14. Jan. 2024 (CET)
- Warum wird unter Weblinks ein Text mit Werbung für die Leistungen der Fraunhofer Gesellschaft zu LLMs aufgeführt? - Der verlinkte Text der FhG ist offensichtlich so verfasst, um am Ende des Textes Werbung für Ihre Produkte und Beratung der FhG zu machen.
Widersprüchliche Definitionen
[Quelltext bearbeiten]In Wikidata ist folgende Definition von "großes Sprachmodell" erfasst, die in der Mobilansicht oben eingeblendet wird:
- Sprachmodell, das mit großen Mengen von Texten erstellt wurde"
Umseitig steht hingegen sinngemäß, dass man zwischen großen und kleinen Sprachmodellen anhand ihrer Fähigkeiten unterscheidet.
Also wofür steht nun das "groß"? Große Fähigkeiten, großer Input, große gespeicherte Datenmenge? Der Widerspruch zwischen der umseitigen Definiton und der in Wikidata sollte aufgelöst werden. --PM3 20:25, 14. Jan. 2024 (CET)
- Egal, wofür es steht, als am Englischen orientierter deutschsprachiger Fachbegriff sollte es in diesem Zusammenhang groß geschrieben werden. --Arbre à palabres (Diskussion) 20:29, 14. Jan. 2024 (CET) PS: s.o.
- Die Formulierung "eine Art Sprachmodell, das sich durch seine Fähigkeit auszeichnet" ist auch in sich widersprüchlich. Es müsste entweder "eine Art Sprachmodell, die sich" oder "ein Sprachmodell, das sich" heißen. Ist inhaltlich nicht die gleiche Aussage. --PM3 23:23, 14. Jan. 2024 (CET)
- Von der Definitionsfrage noch mal ganz abgesehen, „lohnt“ ein Artikel über die „großen“ unter den Sprachmodellen sich überhaupt? Sprachmodell ist jetzt nicht so lang, da könnte man den Inhalt dieses Artikels einbauen. Warum ich diesen Vorschlag mache? Da sind wir wieder bei der Definitionsfrage, oder besser bei der Abgrenzung: Wie grenzt sich ein „großes“ Sprachmodell von all den anderen Sprachmodellen ab? Größe allein (sei es Größe der Trainingsdaten oder Größe der Fähigkeiten) ist ja ein sehr schwammiges Kriterium. Zum Vergleich: Wir haben Flugzeug und Großraumflugzeug, in letzterem ist aber auch eine belastbare Definition angegeben („Verkehrsflugzeug mit mehr als fünf Meter Rumpfdurchmesser und mindestens zwei Gängen in der Passagierkabine“). Wir haben nicht Wesir und Großwesir, Letzteres ist eine Weiterleitung auf einen Abschnitt in Ersterem. Ebenso: Veranstaltung/Großveranstaltung. Und das Thema Mächtigkeit/Fähigkeiten ist in Sprachmodell ja auch schon angerissen. --Karlheinz Deppe-Wiesinger (Diskussion) 10:20, 22. Jan. 2024 (CET)
GPT-2.0
[Quelltext bearbeiten]Der Satz "Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte GPT-2 im Jahr 2019 große Aufmerksamkeit, da OpenAI es zunächst als zu leistungsfähig erachtete, um es aus Angst vor böswilliger Nutzung zu veröffentlichen." ist wohl missraten.
Der Gegensatz (Obwohl) zwischen GPT-1 als Decoder-Modell und der Veröffentlichung erschließt sich nicht aus dem Text.
Der zweite Satzteil ist schwer nachvollziehbar und müsste wohl umformuliert werden.
Für beide Aussagen gibt es keine Belege. Gefunden habe ich https://katzlberger.ai/2019/07/15/gpt-2/ Dort wird erklärt, dass angekündigt wurde, die Veröffentlichung von GPT-2 aus Angst vor Mißbrauch einzuschränken und GPT-2 nicht Open Source freizugeben.
https://www.netzwoche.ch/news/2019-11-17/die-beruechtigte-schreib-ki-ist-zurueck-und-erschreckend-gut Hier ist zu lesen, dass GPT-2 zunächst nur eingeschränkt, dann aber vollständig veröffentlicht wurde. --Lapp (Diskussion) 10:53, 19. Jul. 2024 (CEST)
Forschende
[Quelltext bearbeiten]Die Bezeichnung "Forschende" findet sich auch in anderen Artikeln und ist aus meiner Sicht gegenüber "Forscher" vorzugswürdig. @A16899: Gibt es eine verbindliche Festlegung, wie mit diesem oder ähnlichen Begriffen in Artikeln in WP umgegangen wird? --Lapp (Diskussion) 16:06, 2. Jan. 2025 (CET)
- Hallo Lapp, danke für deine Frage. Zum Thema gendern, gab es 2019 eine Umfrage. Ein Vorschlag, über den abgestimmt wurde, war die Option 6: Umschreibungen. Mit 42 Zustimmungen, 155 Ablehnungen und 18 Enthaltungen wurde der Vorschlag abgelehnt. Liebe Grüße A16899 (Diskussion) 18:38, 2. Jan. 2025 (CET)
- Ein alte, abgelehnte Umfrage ist kein gutes Argument. Umschreibungen sind prinzipiell erlaubt. Hier greift die Korrektoren-Regel.--Perfect Tommy (Diskussion) 16:22, 11. Mär. 2025 (CET)
Die Bezeichnung "Forschende" gab es schon vor 100 Jahren, z. B. im Iserlohner Kreisanzeiger vom 20. März 1925 (dort allerdings nur im Singular). Sie ist keine Erfindung der letzten Jahre und kann problemlos verwendet werden, wie übrigens auch "Studierende", das mindestens genauso lange schon üblich ist. --Stefan Weil (Diskussion) 16:37, 11. Mär. 2025 (CET)
Eigenschaften
[Quelltext bearbeiten]Ich glaube von den Eigenschaften wird nur die Zahl der Parameter erwähnt. Mir fällt dann noch die Größe des Kontextfensters ein. Bei ChatGPT kann man Daten permanent speichern. Sinnvoll könnte der eigene Wohnort und der von Freunden und Bekannten sein. Das andere ist, dass LLMs sich bei den Schwerpunkten unterscheiden, wobei das an den Trainingsdaten und am Aufbau liegen kann. Hier könnte man dann auch noch die trainierten Sprachen ansprechen. --Goldzahn (Diskussion) 14:15, 3. Feb. 2025 (CET)
Modell-Kollaps, Frage
[Quelltext bearbeiten]Das Systeme aller Art so lange optimiert werden können, bis sie für alles Gewöhnliche zu kaputt sind, ist eine geläufige Erfahrung. Welche Ansätze gibt es dazu, wie sowas wirksam verhindert werden kann? --2003:E3:C745:9C00:B46C:1AEA:9897:C9CC 10:31, 10. Feb. 2025 (CET)
- Ja, auch künstliche Intelligenz kann durch zu langes einseitiges Training zum Fachidiot werden. Und auch die Optionen, wie man das vermeiden kann, erscheinen mir sehr ähnlich zu sein wie bei Menschen. Im Artikel zu Overfitting wird kurz auf deine Frage eingegangen. --Stefan Weil (Diskussion) 10:50, 10. Feb. 2025 (CET)
Abschnitte zur Multimodalität
[Quelltext bearbeiten]Aktuell gibt es mehrere Abschnitte, die sich meiner Auffassung nach mehr oder weniger direkt mit Multimodalität beschäftigen:
- Multimodal Learning verweist direkt zu Anfang auf einen Artikel zu Multimodaler KI (welcher selbst eher kurz ist) und nennt dabei zwar beispielhaft Modalitäten (Text, Bilder, Audio, Video), mir fehlt hier aber ein expliziter Satz, was das nun mit LLMs zu tun hat. Zudem wird in den Listenpunkten definiert, wie diese Modalitäten im Einzelnen verarbeitet werden (CNNs für Bilder) oder was Anwendungen von unimodalen Modellen sind (Named Entity Recognition für Text, Objekterkennung für Bild, ...). Meine Vermutungen: der LLM-Begriff soll auf Modelle erweitert werden, die mehr als nur Text umfassen. Oder: LLMs werden zunehmend erweitert um auch mit anderen Modalitäten umgehen zu können (die Frage offen lassend, ab wann man zu weit von "Sprachmodell" entfernt ist: muss Text/natürliche Sprache noch die Hauptmodalität sein?)
- Bootstrapping Language-Image Pretraining könnte meiner Meinung nach noch verständlicher für Laien geschrieben werden und scheint mir eine Methode vorzustellen, die folgende Frage beantworten möchte: wie können Modelle, die Sprache und Bilder als Modalitäten beherrschen sollen, effizient trainiert werden?
- Skalierungsgesetze ist schließlich der am wenigsten laienverständliche Abschnitt der drei und aktuell auch mit einem Banner versehen ("bedarf einer grundsätzlichen Bearbeitung" - vollste Zustimmung). Er setzt sehr viel Wissen voraus, was bisher vorher nicht ausgeführt oder verlinkt wird. Auch die Formel erhält keine Erklärung zu den benutzten Variablen, das ist im arXiv-Artikel hingegen immerhin kurz erklärt und wäre auch für Fachexperten wichtig. Ich weiß nicht einmal, ob man so tief hier gehen müsste; Die englische Wikipedia-Seite zu LLMs erwähnt auch Skalierungsgesetze und ist da auch nicht super laienverständlich, startet aber immerhin damit, was den die Skalen sind bzw. anhand was skaliert wird. Der am Ende des deutschen Abschnitts verlinkten arXiv-Quelle (Scaling Laws for Generative Mixed-Modal Language Models) entnehme ich -- beim groben Durchlesen der ersten Seiten --, dass dort neben einer anderen auch eine technischere Definition von Modalität (über die Ähnlichkeit von Wahrscheinlichkeitsverteilungen) zur Anwendung kommt.
Mein Vorschlag wäre, zu prüfen, ob die drei Abschnitte kombiniert werden könnten unter dem Begriff "Multimodale LLMs" (oder ähnliches: Erweiterung um weitere Modalitäten, Über Text hinaus... bin da nicht festgelegt). In einem solchen könnte man klären
- was ist gemeint mit Modalität? an Beispielen oder Definition, falls man sich an einer solchen versuchen möchte: geht es nur um Buchstabensequenz (umfasst Text und Programmiersprachen), Audiosequenzen (Musik, gesprochene Sprache), Bilder oder Bildersequenzen ("Videos": mit und ohne zugehörige Audiospur). Oder sind Code und Text schon unterschiedliche Modalitäten? Ist multimodal ab zwei Modalitäten oder erst ab wie vielen? Hier kann natürlich für tiefergehende Erklärungen/Informationen, wie auch bisher auf andere Wikipedia-Artikel zu (Multi-)Modalität generell oder im KI-Kontext verlinkt werden. Persönlich interessant, aber nicht unbedingt einfließen muss, wie Gebärdensprache in dem Kontext von Multimodalität bewertet wird.
- Multimodalität in Ein- und Ausgabe: akzeptieren solche multimodalen LLMs auch als Eingabe eine andere Modalität als Text oder Kombinationen von Modalitäten? Oder reicht für Multimodalität, dass Eingabe und Ausgabe unterschiedlicher Modalität sind (Text2Image)? Geht es bei Multimodalität nur um die Ausgabeseite (Rückgabe von Bild und Text gleichzeitig bspw.)?
- Training/Herstellung von Multimodalität : darauf zielt m.E.n. der zweite o.g. Abschnitt (Bootstrapping Language-Image Pretraining) ab, zu einem Teil vielleicht auch der dritte (Skalierungsgesetze). Dort könnte es darum gehen, welche Strategien es gibt, um im Training mehre Modalitäten zu vereinen: bisheriges Beispiel an Bild und Text als Modalitäten: zuerst unimodale Modelle vortrainieren, dann im zweiten Teil zusammenfügen. Hier kann man Vorteile und Schwierigkeiten ansprechen. Oder auch, inwiefern es möglicherweise Synergie-Effekte gibt beim Lernen ("mehr als die Summe der Teile"). Ich denke hier beim Trainingspunkt besteht die größte Gefahr, den Bezug zum Titel des Artikels (LLMs) zu verlieren, vielleicht muss es auch irgendwann ausgelagert werden oder für weitere Erklärungen auf generell Multimodale KI verwiesen werden.
- gegebenenfalls Beispiele von konkreten Modellen: wichtige/bekannte LLMs, die auch andere Modalitäten beherrschten und welche? Ich meine damit keine lange Liste, aber falls hier welche mit besonderer historischer Bedeutung sind oder besonders populär, hilft ein Beispiel der Verständlichkeit (mit "LLM" können auch mehr Leute etwas anfangen, wenn ich damit einsteige, dass ChatGPT ein LLM ist)
- eventuell verbunden mit oder eingewoben in die vorherigen Punkte: Anwendungen: wozu brauche ich mehr multimodale LLMs, wo "normale" LLMs nicht ausreichen? Ad-hoc fallen hauptsächlich Anwendungen mit Bildern ein, das geht vermutlich besser: Generierung von Bildern anhand von textlichen Beschreibungen, Fragen zu Bildern beantworten oder diese per Instruktionen abwandeln, Hilfe beim Entwickeln von Programmcode. Persönlich interessant finde ich, inwiefern die Anwendungen von multimodalen LLMs wirklich noch Chat-Charakter (Multi-Turn-Conversations) verlangen oder daraufhin noch weiter optimiert werden im Training (vielleicht auch ein Punkt für den Trainingsabschnitt).
Eine zu starke Überschneidung mit Multimodale KI, wie bisher im Abschnitt Multimodal Learning verlinkt, sollte vermieden werden.
Disclaimer: Ich würde mich als Computerlinguist bezeichnen, bin also kein vollständiger Laie, versuche aber trotzdem nachzuvollziehen, wie sich der bisherige Text wohl für Laien liest. --PlusMinuscule (Diskussion) 01:57, 20. Jun. 2025 (CEST)
Vorschläge für zusätzliche Abschnitte
[Quelltext bearbeiten]- Evaluierung und Benchmarks: wie wird die Güte von LLMs gemessen? wenn LLMs Text generieren, wie entscheiden wir, ob sie insgesamt "gute" Texte generieren? Damit meine ich hauptsächlich Benchmark-Datensätze oder -Tasks und Arten der Evaluation (Standardmetriken, Umfrage bei Menschen...). Davon separat halten würde ich die in einem anderen Diskussionsabschnitt ("Eigenschaften") angesprochene Frage, woran LLMs verglichen werden können bzw. worin sie sich unterscheiden: dort wurden Punkte wie Anzahl der Parameter, Art des Trainings und Trainingsschwerpunkt (Daten inklusive welche Sprachen in welchem Verhältnis darin vorkamen) und Größe des Kontextfensters genannt.
- vielleicht könnte man einen Abschnitt zu Kritik an LLMs ergänzen? Bisher sehe ich einen Satz am Anfang zum Ressourcenverbrauch. Mir würden als Stichpunkte einfallen:
- mögliche Copyright-Verletzungen bei Trainingsdaten
- Black Box: Erklärbarkeit (warum ist die Ausgabe des LLMs wie sie ist?), was ist in den Trainingsdaten?
- Voreingenommenheit: "Bias"/Verbreitung von Stereotypen/Abhängig auch von Trainingsdaten: siehe auch Kritik Deepseek vs. 'westliche' Modelle
- Ungleichgewicht bei Sprachen (Qualität in Antworten je nach Sprache beispielsweise, Repräsentation von Sprachgemeinschaften)
- Nutzung zur Verbreitung von Falschinformationen oder anderen schädlichen Zwecken
- Debatte inwiefern die LLMs tatsächlich "Intelligenz" und "Verständnis" besitzen oder es nur sehr gut simulieren
- den Punkt zu Ressourcenverbrauch weiter ausführen: steigende Tendenz durch immer größere Modelle, Vergleich mit Google-Suche, im Hinblick auf begrenzte Ressourcen des Planeten
- Hoheit über Modellentwicklung: je größer die Modelle und Trainingsaufwände, desto weniger Firmen können sich das leisten (finanziell und Zugang zu Rechenzentren) und desto exklusiver wird der Kreis der Anbieter.
Falls einzelne Kritikpunkte in einem anderen Artikel schon erwähnt worden sein sollten, kann man natürlich auf darauf verweisen und es hier kurz halten. Vergleiche auch Künstliche Intelligenz#Kritik an der KI-Forschung, Künstliche Intelligenz#Grundlegende Schwachstellen der KI, Künstliche Intelligenz#Umweltaspekte
- Relation zu Begriffen und Konzepten wie
- Retrieval-Augmented Generation (RAG): eventuell kurzer Vergleich mit Finetuning und Prompt Engineering als Arten, ein LLM besser an die gewünschte Aufgabe anzupassen.
- KI Agenten/Agentischer KI, Chatbot, generative KI, Foundation Models: sind alle LLMs zwingend Chatbots/ist jeder Chatbot ein LLM? gehören LLMs zu generativer KI?: hab das Gefühl im Alltag benutzen manche LLM, Chatbot und generative KI Synonym. Foundation Models werden aktuell im Abschnitt Kollaps erwähnt und der Artikel selbst beinhaltet auch eine Abgrenzung zu LLMs: brauchen wir auch eine hier? Vielleicht nur ein kurzer Satz in Richtung "LLMs zählen sowohl als Foundation Models als auch zu generativer KI, diese zwei Begriffe sind allerdings weiter gefasst, da sie nicht an Sprache als zugrundeliegende Datenart gebunden sind.".
- Tool-Nutzung wie Ansprache von APIs oder Ausführung von Programmcode (eventuell nur kurze Erwähnung in Geschichte?)
- Möglichkeiten um größere Modelle "kleiner" zu machen: Distillation und Quantization fallen mir hier ein.
Auch hier: Falls Punkte schon woanders erwähnt wurden, gerne Hinweis oder kurz halten.
Ja, hierzu habe ich auch auf den englischen Wikipedia-Artikel zu LLMs geschielt, aber nicht nur. Mir geht es nicht darum den deutschen Artikel dem englischen möglichst ähnlich zu machen. --PlusMinuscule (Diskussion) 03:38, 20. Jun. 2025 (CEST)