https://de.wikipedia.org/w/index.php?action=history&feed=atom&title=Large_Language_Model Large Language Model - Versionsgeschichte 2025-05-22T18:57:18Z Versionsgeschichte dieser Seite in Wikipedia MediaWiki 1.45.0-wmf.2 https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=256163656&oldid=prev 77.183.166.76: „teilweise“ ist hier treffender, zudem im Sinne daß es, eben mit dem „Modell“, noch immer _keine_ vollständige Übersetzung ist; außerdem bedarf dies keines Beleges, da das eigentlich offensichtlich ist, im Gegensatz zur vorherigen Aussage, welche sich wohl eher auf die zudem auch sogenannte Worthäufigkeit bezieht 2025-05-20T10:39:58Z <p>„teilweise“ ist hier treffender, zudem im Sinne daß es, eben mit dem „<a href="/wiki/Modell" title="Modell">Modell</a>“, noch immer _keine_ vollständige Übersetzung ist; außerdem bedarf dies keines Beleges, da das eigentlich offensichtlich ist, im Gegensatz zur vorherigen Aussage, welche sich wohl eher auf die zudem auch sogenannte <a href="/wiki/Worth%C3%A4ufigkeit" title="Worthäufigkeit">Worthäufigkeit</a> bezieht</p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 20. Mai 2025, 12:39 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 1:</td> <td colspan="2" class="diff-lineno">Zeile 1:</td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Ein '''{{lang|en|Large Language Model}}''', kurz '''{{lang|en|LLM}}''' (englisch, <del style="font-weight: bold; text-decoration: none;">vereinzelt</del> [[Lehnübertragung|übertragen]] '''großes Sprachmodell'''), ist ein [[Sprachmodell]], das sich durch seine Fähigkeit zur [[Textgenerierung]] auszeichnet. Es handelt sich um ein [[Computerlinguistik|computerlinguistisches]] Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat. Für die mathematische Beschreibung siehe [[Sprachmodell]].</div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Ein '''{{lang|en|Large Language Model}}''', kurz '''{{lang|en|LLM}}''' (englisch, <ins style="font-weight: bold; text-decoration: none;">teilweise</ins> [[Lehnübertragung|übertragen]] '''großes Sprachmodell'''), ist ein [[Sprachmodell]], das sich durch seine Fähigkeit zur [[Textgenerierung]] auszeichnet. Es handelt sich um ein [[Computerlinguistik|computerlinguistisches]] Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat. Für die mathematische Beschreibung siehe [[Sprachmodell]].</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.&lt;ref&gt;{{Internetquelle |url=https://openai.com/research/better-language-models |titel=Better language models and their implications |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt; Große Sprachmodelle sind im weiteren Sinne [[Künstliches neuronales Netz|künstliche neuronale Netze]] und werden ([[a priori]]) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Stand 2024 werden meistens [[Transformer (Maschinelles Lernen)|Transformer]] als Netzwerkarchitektur gewählt.&lt;ref&gt;{{Internetquelle |autor=Rick Merritt |url=https://blogs.nvidia.com/blog/what-is-a-transformer-model/ |titel=What Is a Transformer Model? |datum=2022-03-25 |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt;</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.&lt;ref&gt;{{Internetquelle |url=https://openai.com/research/better-language-models |titel=Better language models and their implications |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt; Große Sprachmodelle sind im weiteren Sinne [[Künstliches neuronales Netz|künstliche neuronale Netze]] und werden ([[a priori]]) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Stand 2024 werden meistens [[Transformer (Maschinelles Lernen)|Transformer]] als Netzwerkarchitektur gewählt.&lt;ref&gt;{{Internetquelle |autor=Rick Merritt |url=https://blogs.nvidia.com/blog/what-is-a-transformer-model/ |titel=What Is a Transformer Model? |datum=2022-03-25 |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt;</div></td> </tr> <!-- diff cache key dewiki:diff:1.41:old-255609831:rev-256163656:wikidiff2=table:1.14.1:ff290eae --> </table> 77.183.166.76 https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=255609831&oldid=prev Nerdworld: /* Kollaps */ Fehlender Punkt 2025-04-30T23:17:59Z <p><span class="autocomment">Kollaps: </span> Fehlender Punkt</p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 1. Mai 2025, 01:17 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 47:</td> <td colspan="2" class="diff-lineno">Zeile 47:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Kollaps ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Kollaps ==</div></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Bei LLM und [[Foundation Models]] anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen ([[Modellkollaps]], ''model collapse''). Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d.&amp;nbsp;h dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch [[Screen Scraping|Webscraping]] erlangten Daten erscheint bisher als zu aufwändig.&lt;ref&gt;{{Literatur |Autor=Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal |Titel=AI models collapse when trained on recursively generated data |Sammelwerk=Nature |Band=631 |Nummer=8022 |Datum=2024-07-25 |ISSN=0028-0836 |DOI=10.1038/s41586-024-07566-y |PMC=11269175 |PMID=39048682 |Seiten=755–759 |Online=https://www.nature.com/articles/s41586-024-07566-y |Abruf=2024-07-27}}&lt;/ref&gt;</div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Bei LLM und [[Foundation Models]] anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen ([[Modellkollaps]], ''model collapse''). Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d.&amp;nbsp;h<ins style="font-weight: bold; text-decoration: none;">.</ins> dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch [[Screen Scraping|Webscraping]] erlangten Daten erscheint bisher als zu aufwändig.&lt;ref&gt;{{Literatur |Autor=Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal |Titel=AI models collapse when trained on recursively generated data |Sammelwerk=Nature |Band=631 |Nummer=8022 |Datum=2024-07-25 |ISSN=0028-0836 |DOI=10.1038/s41586-024-07566-y |PMC=11269175 |PMID=39048682 |Seiten=755–759 |Online=https://www.nature.com/articles/s41586-024-07566-y |Abruf=2024-07-27}}&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> </tr> </table> Nerdworld https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=254912257&oldid=prev Joschi71: /* Hardware */ DL entfernt 2025-04-06T17:04:02Z <p><span class="autocomment">Hardware: </span> DL entfernt</p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 6. April 2025, 19:04 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 17:</td> <td colspan="2" class="diff-lineno">Zeile 17:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>=== Hardware ===</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>=== Hardware ===</div></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Neben [[Grafikprozessor]]en gibt es seit einigen Jahren Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen optimiert sind. 2016 wurde beispielsweise von Google die erste Version ihrer [[Tensor Processing Unit]] (TPU) vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Herstellern mit Spezial-Hardware für die Bearbeitung von LLMs. So haben beispielsweise [[Cerebras]] den CS-1, CS-2 und CS-3, AMD die Instinct<del style="font-weight: bold; text-decoration: none;"> </del>Serie, Intel die Gaudi-Plattform und [[Nvidia]] Hopper bzw. dessen Nachfolger [[Blackwell (Grafikprozessor)|Blackwell]] eingeführt bzw. angekündigt.</div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Neben [[Grafikprozessor]]en gibt es seit einigen Jahren Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen optimiert sind. 2016 wurde beispielsweise von Google die erste Version ihrer [[Tensor Processing Unit]] (TPU) vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Herstellern mit Spezial-Hardware für die Bearbeitung von LLMs. So haben beispielsweise [[Cerebras]] den CS-1, CS-2 und CS-3, AMD die Instinct<ins style="font-weight: bold; text-decoration: none;">-</ins>Serie, Intel die Gaudi-Plattform und [[Nvidia]] Hopper bzw. dessen Nachfolger [[Blackwell (Grafikprozessor)|Blackwell]] eingeführt bzw. angekündigt.</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Multimodal Learning ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Multimodal Learning ==</div></td> </tr> </table> Joschi71 https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=254128525&oldid=prev Luekas: Link korrigiert gemäß BKL „Bert“ 2025-03-12T08:28:05Z <p>Link korrigiert gemäß <a href="/wiki/Bert" title="Bert">BKL „Bert“</a></p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 12. März 2025, 10:28 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 8:</td> <td colspan="2" class="diff-lineno">Zeile 8:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Geschichte ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Geschichte ==</div></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Auf der „[[Conference on Neural Information Processing Systems]]“ (NeurIPS) 2017 stellten Google-Forscher unter [[Ashish Vaswani]] die Transformer-Architektur in ihrem Papier ''Attention Is All You Need'' vor.&lt;ref&gt;{{Internetquelle |autor=Ashish Vaswani et al |url=https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf |titel=Attention is all you need |hrsg=Google |format=PDF |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt;&lt;ref&gt;{{Internetquelle |autor=Rob Toews |url=https://www.forbes.com/sites/robtoews/2023/09/03/transformers-revolutionized-ai-what-will-replace-them/ |titel=Transformers Revolutionized AI. What Will Replace Them? |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; Ziel dieses Papiers war es, die [[Seq2seq]]-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus (attention mechanism).&lt;ref&gt;{{Internetquelle |autor=Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio |url=https://arxiv.org/abs/1409.0473 |titel=Neural Machine Translation by Jointly Learning to Align and Translate |werk=Arxiv |datum=2014-09-01 |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; Im darauffolgenden Jahr 2018 wurde [[<del style="font-weight: bold; text-decoration: none;">BERT</del> <del style="font-weight: bold; text-decoration: none;">Sprachmodell</del>|BERT]] eingeführt und schnell „allgegenwärtig“. Obwohl der ursprüngliche Transformator sowohl [[Kodierer|Encoder]]- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.&lt;ref&gt;[//www.bigdata-insider.de/was-ist-bert-a-1116088 Was ist BERT?] – von ''Stefan Luber'', über ''Bigdata-Insider'', am 10. Mai 2022.&lt;/ref&gt;</div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Auf der „[[Conference on Neural Information Processing Systems]]“ (NeurIPS) 2017 stellten Google-Forscher unter [[Ashish Vaswani]] die Transformer-Architektur in ihrem Papier ''Attention Is All You Need'' vor.&lt;ref&gt;{{Internetquelle |autor=Ashish Vaswani et al |url=https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf |titel=Attention is all you need |hrsg=Google |format=PDF |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt;&lt;ref&gt;{{Internetquelle |autor=Rob Toews |url=https://www.forbes.com/sites/robtoews/2023/09/03/transformers-revolutionized-ai-what-will-replace-them/ |titel=Transformers Revolutionized AI. What Will Replace Them? |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; Ziel dieses Papiers war es, die [[Seq2seq]]-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus (attention mechanism).&lt;ref&gt;{{Internetquelle |autor=Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio |url=https://arxiv.org/abs/1409.0473 |titel=Neural Machine Translation by Jointly Learning to Align and Translate |werk=Arxiv |datum=2014-09-01 |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; Im darauffolgenden Jahr 2018 wurde [[<ins style="font-weight: bold; text-decoration: none;">Bidirectional</ins> <ins style="font-weight: bold; text-decoration: none;">Encoder Representations from Transformers</ins>|BERT]] eingeführt und schnell „allgegenwärtig“. Obwohl der ursprüngliche Transformator sowohl [[Kodierer|Encoder]]- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.&lt;ref&gt;[//www.bigdata-insider.de/was-ist-bert-a-1116088 Was ist BERT?] – von ''Stefan Luber'', über ''Bigdata-Insider'', am 10. Mai 2022.&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte [[OpenAI|GPT-2]] im Jahr 2019 große Aufmerksamkeit, da [[OpenAI]] es zunächst als zu leistungsfähig erachtete, um es aus Angst vor böswilliger Nutzung zu veröffentlichen. [[Generative Pre-trained Transformer 3|GPT-3]] im Jahr 2020 ging noch einen Schritt weiter und ist ab 2024 nur noch über eine API verfügbar, ohne die Möglichkeit, das Modell zur lokalen Ausführung herunterzuladen. Es war das browserbasierte ChatGPT aus dem Jahr 2022, das „die Welt komplett veränderte“.&lt;ref&gt;{{Internetquelle |url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months |titel=ChatGPT turns 1: How the AI chatbot has completely changed the world |datum=2023-11-30 |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; 2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.&lt;ref&gt;{{Internetquelle |url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/ |titel=GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; OpenAI gab die High-Level-Architektur und die Anzahl der Parameter des GPT-4 nicht bekannt.</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte [[OpenAI|GPT-2]] im Jahr 2019 große Aufmerksamkeit, da [[OpenAI]] es zunächst als zu leistungsfähig erachtete, um es aus Angst vor böswilliger Nutzung zu veröffentlichen. [[Generative Pre-trained Transformer 3|GPT-3]] im Jahr 2020 ging noch einen Schritt weiter und ist ab 2024 nur noch über eine API verfügbar, ohne die Möglichkeit, das Modell zur lokalen Ausführung herunterzuladen. Es war das browserbasierte ChatGPT aus dem Jahr 2022, das „die Welt komplett veränderte“.&lt;ref&gt;{{Internetquelle |url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months |titel=ChatGPT turns 1: How the AI chatbot has completely changed the world |datum=2023-11-30 |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; 2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.&lt;ref&gt;{{Internetquelle |url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/ |titel=GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why |sprache=en |abruf=2024-02-05 }}&lt;/ref&gt; OpenAI gab die High-Level-Architektur und die Anzahl der Parameter des GPT-4 nicht bekannt.</div></td> </tr> </table> Luekas https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=254105794&oldid=prev Luekas: /* Kollaps */ Klarstellung, dass insb. durch LLMs generierte Trainingsdaten problematisch sind; nicht grundsätzlich künstlich generierte Trainingsdaten 2025-03-11T13:06:01Z <p><span class="autocomment">Kollaps: </span> Klarstellung, dass insb. durch LLMs generierte Trainingsdaten problematisch sind; nicht grundsätzlich künstlich generierte Trainingsdaten</p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 11. März 2025, 15:06 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 47:</td> <td colspan="2" class="diff-lineno">Zeile 47:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Kollaps ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Kollaps ==</div></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Bei LLM und [[Foundation Models]] anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden<del style="font-weight: bold; text-decoration: none;">,</del> Verschlechterung der Ergebnisqualität kommen ([[Modellkollaps]], ''model collapse''). Dies <del style="font-weight: bold; text-decoration: none;">kann</del> <del style="font-weight: bold; text-decoration: none;">auch</del> nachfolgende Modellversionen<del style="font-weight: bold; text-decoration: none;"> betreffen</del>, die mit einem zunehmenden Anteil künstlich <del style="font-weight: bold; text-decoration: none;">generierter</del> <del style="font-weight: bold; text-decoration: none;">Trainingsdaten</del> <del style="font-weight: bold; text-decoration: none;">erstellt</del> werden, <del style="font-weight: bold; text-decoration: none;">da</del> <del style="font-weight: bold; text-decoration: none;">eine</del> Vorsortierung in der Regel durch [[Screen Scraping|Webscraping]] <del style="font-weight: bold; text-decoration: none;">erlangter</del> Daten bisher als zu aufwändig<del style="font-weight: bold; text-decoration: none;"> erscheint</del>.&lt;ref&gt;{{Literatur |Autor=Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal |Titel=AI models collapse when trained on recursively generated data |Sammelwerk=Nature |Band=631 |Nummer=8022 |Datum=2024-07-25 |ISSN=0028-0836 |DOI=10.1038/s41586-024-07566-y |PMC=11269175 |PMID=39048682 |Seiten=755–759 |Online=https://www.nature.com/articles/s41586-024-07566-y |Abruf=2024-07-27}}&lt;/ref&gt;</div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Bei LLM und [[Foundation Models]] anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen ([[Modellkollaps]], ''model collapse''). Dies <ins style="font-weight: bold; text-decoration: none;">betrifft</ins> <ins style="font-weight: bold; text-decoration: none;">insbesondere</ins> nachfolgende Modellversionen, die mit einem zunehmenden Anteil<ins style="font-weight: bold; text-decoration: none;"> an</ins> künstlich <ins style="font-weight: bold; text-decoration: none;">generierten</ins> <ins style="font-weight: bold; text-decoration: none;">Daten</ins> <ins style="font-weight: bold; text-decoration: none;">trainiert</ins> werden, <ins style="font-weight: bold; text-decoration: none;">d.&amp;nbsp;h</ins> <ins style="font-weight: bold; text-decoration: none;">dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine</ins> Vorsortierung<ins style="font-weight: bold; text-decoration: none;"> der</ins> in der Regel durch [[Screen Scraping|Webscraping]] <ins style="font-weight: bold; text-decoration: none;">erlangten</ins> Daten<ins style="font-weight: bold; text-decoration: none;"> erscheint</ins> bisher als zu aufwändig.&lt;ref&gt;{{Literatur |Autor=Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal |Titel=AI models collapse when trained on recursively generated data |Sammelwerk=Nature |Band=631 |Nummer=8022 |Datum=2024-07-25 |ISSN=0028-0836 |DOI=10.1038/s41586-024-07566-y |PMC=11269175 |PMID=39048682 |Seiten=755–759 |Online=https://www.nature.com/articles/s41586-024-07566-y |Abruf=2024-07-27}}&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> </tr> </table> Luekas https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=252938100&oldid=prev Biggerj1: /* Trivia */ raus, vermutlich nicht mehr aktuell. Halluzinationen lassen sich so nicht vollständig unterdrücken 2025-02-02T22:54:52Z <p><span class="autocomment">Trivia: </span> raus, vermutlich nicht mehr aktuell. Halluzinationen lassen sich so nicht vollständig unterdrücken</p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 3. Februar 2025, 00:54 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 48:</td> <td colspan="2" class="diff-lineno">Zeile 48:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Kollaps ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Kollaps ==</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Bei LLM und [[Foundation Models]] anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden, Verschlechterung der Ergebnisqualität kommen ([[Modellkollaps]], ''model collapse''). Dies kann auch nachfolgende Modellversionen betreffen, die mit einem zunehmenden Anteil künstlich generierter Trainingsdaten erstellt werden, da eine Vorsortierung in der Regel durch [[Screen Scraping|Webscraping]] erlangter Daten bisher als zu aufwändig erscheint.&lt;ref&gt;{{Literatur |Autor=Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal |Titel=AI models collapse when trained on recursively generated data |Sammelwerk=Nature |Band=631 |Nummer=8022 |Datum=2024-07-25 |ISSN=0028-0836 |DOI=10.1038/s41586-024-07566-y |PMC=11269175 |PMID=39048682 |Seiten=755–759 |Online=https://www.nature.com/articles/s41586-024-07566-y |Abruf=2024-07-27}}&lt;/ref&gt;</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Bei LLM und [[Foundation Models]] anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden, Verschlechterung der Ergebnisqualität kommen ([[Modellkollaps]], ''model collapse''). Dies kann auch nachfolgende Modellversionen betreffen, die mit einem zunehmenden Anteil künstlich generierter Trainingsdaten erstellt werden, da eine Vorsortierung in der Regel durch [[Screen Scraping|Webscraping]] erlangter Daten bisher als zu aufwändig erscheint.&lt;ref&gt;{{Literatur |Autor=Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal |Titel=AI models collapse when trained on recursively generated data |Sammelwerk=Nature |Band=631 |Nummer=8022 |Datum=2024-07-25 |ISSN=0028-0836 |DOI=10.1038/s41586-024-07566-y |PMC=11269175 |PMID=39048682 |Seiten=755–759 |Online=https://www.nature.com/articles/s41586-024-07566-y |Abruf=2024-07-27}}&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><br /></td> <td colspan="2" class="diff-empty diff-side-added"></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>== Trivia ==</div></td> <td colspan="2" class="diff-empty diff-side-added"></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Um [[Fehlinformationseffekt|Fehlinformation]] durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forscher der [[Stanford University|Stanford-Universität]] 2024 ''WikiChat'' vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.&lt;ref&gt;{{Literatur |Autor=Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam |Titel=WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia |Datum=2023 |arXiv=2305.14292 |DOI=10.48550/ARXIV.2305.14292}}&lt;/ref&gt; Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.&lt;ref&gt;{{Internetquelle |url=https://github.com/stanford-oval/WikiChat |titel=WikiChat |werk=Open Virtual Assistant Lab |hrsg=Stanford University |sprache=en |abruf=2024-02-06}}&lt;/ref&gt;</div></td> <td colspan="2" class="diff-empty diff-side-added"></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> </tr> </table> Biggerj1 https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=252813374&oldid=prev Klangwolke: /* Siehe auch */ Verweis 2025-01-29T22:58:38Z <p><span class="autocomment">Siehe auch: </span> Verweis</p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 30. Januar 2025, 00:58 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 53:</td> <td colspan="2" class="diff-lineno">Zeile 53:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> </tr> <tr> <td colspan="2" class="diff-empty diff-side-deleted"></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>* [[Chatbot]]</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>* [[Generativer vortrainierter Transformer]] (GPT)</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>* [[Generativer vortrainierter Transformer]] (GPT)</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>* [[Language Model for Dialogue Applications]] (LaMDA)</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>* [[Language Model for Dialogue Applications]] (LaMDA)</div></td> </tr> </table> Klangwolke https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=252684669&oldid=prev Gener am 26. Januar 2025 um 05:46 Uhr 2025-01-26T05:46:37Z <p></p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 26. Januar 2025, 07:46 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 5:</td> <td colspan="2" class="diff-lineno">Zeile 5:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die „verschiedene Aufgaben in [[Natürliche Sprache|natürlicher Sprache]] ausführen können, z.&amp;nbsp;B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.&lt;ref&gt;Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: ''Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers'' Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier [https://www.google.de/books/edition/Knowledge_Graph_and_Semantic_Computing_K/cMrfEAAAQBAJ?hl=de&amp;gbpv=1&amp;dq=%22predicting+the+next+token+or+word%22&amp;pg=PA319&amp;printsec=frontcover S. 319]) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. [[arxiv:2304.00612|Eight Things to Know about Large Language Models]].&lt;/ref&gt; Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung.&lt;ref&gt;{{Internetquelle |url=https://www.ibm.com/de-de/topics/fine-tuning |titel=Was ist Feinabstimmung? {{!}} IBM |datum=2024-03-15 |sprache=de |abruf=2024-12-10}}&lt;/ref&gt; Größere Modelle, wie z.&amp;nbsp;B. das inzwischen populäre [[Generative Pre-trained Transformer 3|GPT-3]], wurden jedoch so konzipiert, dass sie mit Hilfe von [[Prompt Engineering]] ähnliche Ergebnisse erzielen können.&lt;ref&gt;{{Internetquelle |url=https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf |titel=Language Models are Few-Shot Learners |format=PDF |abruf=2024-01-15 }}&lt;/ref&gt; Zusätzlich zu der Fähigkeit, Kenntnisse über [[Syntax]], [[Semantik]] und „Ontologie“ in menschlichen [[Korpuslinguistik|Sprachkorpora]] zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.&lt;ref&gt;{{Internetquelle |url=https://www.amacad.org/publication/human-language-understanding-reasoning |titel=Human Language Understanding &amp; Reasoning |datum=2022-04-13 |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt;</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die „verschiedene Aufgaben in [[Natürliche Sprache|natürlicher Sprache]] ausführen können, z.&amp;nbsp;B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.&lt;ref&gt;Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: ''Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers'' Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier [https://www.google.de/books/edition/Knowledge_Graph_and_Semantic_Computing_K/cMrfEAAAQBAJ?hl=de&amp;gbpv=1&amp;dq=%22predicting+the+next+token+or+word%22&amp;pg=PA319&amp;printsec=frontcover S. 319]) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. [[arxiv:2304.00612|Eight Things to Know about Large Language Models]].&lt;/ref&gt; Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung.&lt;ref&gt;{{Internetquelle |url=https://www.ibm.com/de-de/topics/fine-tuning |titel=Was ist Feinabstimmung? {{!}} IBM |datum=2024-03-15 |sprache=de |abruf=2024-12-10}}&lt;/ref&gt; Größere Modelle, wie z.&amp;nbsp;B. das inzwischen populäre [[Generative Pre-trained Transformer 3|GPT-3]], wurden jedoch so konzipiert, dass sie mit Hilfe von [[Prompt Engineering]] ähnliche Ergebnisse erzielen können.&lt;ref&gt;{{Internetquelle |url=https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf |titel=Language Models are Few-Shot Learners |format=PDF |abruf=2024-01-15 }}&lt;/ref&gt; Zusätzlich zu der Fähigkeit, Kenntnisse über [[Syntax]], [[Semantik]] und „Ontologie“ in menschlichen [[Korpuslinguistik|Sprachkorpora]] zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.&lt;ref&gt;{{Internetquelle |url=https://www.amacad.org/publication/human-language-understanding-reasoning |titel=Human Language Understanding &amp; Reasoning |datum=2022-04-13 |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>LLMs werden beispielsweise bei [[Open Assistant]], [[ChatGPT]], [[Ernie Bot]] und [[Grok]] eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von [[OpenAI]] (z.&amp;nbsp;B. GPT-3.5 und GPT-4, die in ChatGPT und [[Microsoft Copilot]] verwendet werden), Googles [[PaLM]], [[Gemini (Sprachmodell)|Gemini]] und Gemma 2, [[LLaMA-Sprachmodell|Metas LLaMA-Familie]] von Open-Source-Modellen, [[Anthropic]]s [[Claude (Sprachmodell)|Claude]] und [[X.AI]]s Grok-1. Daneben gibt es auch leistungsfähige LLMs chinesischer Firmen wie diejenigen von [[Alibaba Group|Alibaba]], [[<del style="font-weight: bold; text-decoration: none;">Deep Skeek</del>]], 01 AI und Zhipu AI.&lt;ref&gt;Markus Städeli: [https://www.nzz.ch/wirtschaft/die-rangliste-der-weltbesten-ki-chatbots-zeigt-bei-der-kuenstlichen-intelligenz-ist-china-den-amerikanischen-anbietern-dicht-auf-den-fersen-ld.1861889 ''Die Rangliste der weltbesten KI-Chatbots zeigt: Bei der künstlichen Intelligenz ist China den amerikanischen Anbietern dicht auf den Fersen.''] In: ''NZZ am Sonntag'', 14. Dezember 2024, abgerufen am 15. Dezember 2024&lt;/ref&gt; </div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>LLMs werden beispielsweise bei [[Open Assistant]], [[ChatGPT]], [[Ernie Bot]] und [[Grok]] eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von [[OpenAI]] (z.&amp;nbsp;B. GPT-3.5 und GPT-4, die in ChatGPT und [[Microsoft Copilot]] verwendet werden), Googles [[PaLM]], [[Gemini (Sprachmodell)|Gemini]] und Gemma 2, [[LLaMA-Sprachmodell|Metas LLaMA-Familie]] von Open-Source-Modellen, [[Anthropic]]s [[Claude (Sprachmodell)|Claude]] und [[X.AI]]s Grok-1. Daneben gibt es auch leistungsfähige LLMs chinesischer Firmen wie diejenigen von [[Alibaba Group|Alibaba]], [[<ins style="font-weight: bold; text-decoration: none;">Deepseek</ins>]], 01 AI und Zhipu AI.&lt;ref&gt;Markus Städeli: [https://www.nzz.ch/wirtschaft/die-rangliste-der-weltbesten-ki-chatbots-zeigt-bei-der-kuenstlichen-intelligenz-ist-china-den-amerikanischen-anbietern-dicht-auf-den-fersen-ld.1861889 ''Die Rangliste der weltbesten KI-Chatbots zeigt: Bei der künstlichen Intelligenz ist China den amerikanischen Anbietern dicht auf den Fersen.''] In: ''NZZ am Sonntag'', 14. Dezember 2024, abgerufen am 15. Dezember 2024&lt;/ref&gt; </div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Geschichte ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Geschichte ==</div></td> </tr> </table> Gener https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=252684659&oldid=prev Gener am 26. Januar 2025 um 05:45 Uhr 2025-01-26T05:45:43Z <p></p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 26. Januar 2025, 07:45 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 5:</td> <td colspan="2" class="diff-lineno">Zeile 5:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die „verschiedene Aufgaben in [[Natürliche Sprache|natürlicher Sprache]] ausführen können, z.&amp;nbsp;B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.&lt;ref&gt;Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: ''Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers'' Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier [https://www.google.de/books/edition/Knowledge_Graph_and_Semantic_Computing_K/cMrfEAAAQBAJ?hl=de&amp;gbpv=1&amp;dq=%22predicting+the+next+token+or+word%22&amp;pg=PA319&amp;printsec=frontcover S. 319]) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. [[arxiv:2304.00612|Eight Things to Know about Large Language Models]].&lt;/ref&gt; Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung.&lt;ref&gt;{{Internetquelle |url=https://www.ibm.com/de-de/topics/fine-tuning |titel=Was ist Feinabstimmung? {{!}} IBM |datum=2024-03-15 |sprache=de |abruf=2024-12-10}}&lt;/ref&gt; Größere Modelle, wie z.&amp;nbsp;B. das inzwischen populäre [[Generative Pre-trained Transformer 3|GPT-3]], wurden jedoch so konzipiert, dass sie mit Hilfe von [[Prompt Engineering]] ähnliche Ergebnisse erzielen können.&lt;ref&gt;{{Internetquelle |url=https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf |titel=Language Models are Few-Shot Learners |format=PDF |abruf=2024-01-15 }}&lt;/ref&gt; Zusätzlich zu der Fähigkeit, Kenntnisse über [[Syntax]], [[Semantik]] und „Ontologie“ in menschlichen [[Korpuslinguistik|Sprachkorpora]] zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.&lt;ref&gt;{{Internetquelle |url=https://www.amacad.org/publication/human-language-understanding-reasoning |titel=Human Language Understanding &amp; Reasoning |datum=2022-04-13 |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt;</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die „verschiedene Aufgaben in [[Natürliche Sprache|natürlicher Sprache]] ausführen können, z.&amp;nbsp;B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.&lt;ref&gt;Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: ''Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers'' Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier [https://www.google.de/books/edition/Knowledge_Graph_and_Semantic_Computing_K/cMrfEAAAQBAJ?hl=de&amp;gbpv=1&amp;dq=%22predicting+the+next+token+or+word%22&amp;pg=PA319&amp;printsec=frontcover S. 319]) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. [[arxiv:2304.00612|Eight Things to Know about Large Language Models]].&lt;/ref&gt; Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung.&lt;ref&gt;{{Internetquelle |url=https://www.ibm.com/de-de/topics/fine-tuning |titel=Was ist Feinabstimmung? {{!}} IBM |datum=2024-03-15 |sprache=de |abruf=2024-12-10}}&lt;/ref&gt; Größere Modelle, wie z.&amp;nbsp;B. das inzwischen populäre [[Generative Pre-trained Transformer 3|GPT-3]], wurden jedoch so konzipiert, dass sie mit Hilfe von [[Prompt Engineering]] ähnliche Ergebnisse erzielen können.&lt;ref&gt;{{Internetquelle |url=https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf |titel=Language Models are Few-Shot Learners |format=PDF |abruf=2024-01-15 }}&lt;/ref&gt; Zusätzlich zu der Fähigkeit, Kenntnisse über [[Syntax]], [[Semantik]] und „Ontologie“ in menschlichen [[Korpuslinguistik|Sprachkorpora]] zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.&lt;ref&gt;{{Internetquelle |url=https://www.amacad.org/publication/human-language-understanding-reasoning |titel=Human Language Understanding &amp; Reasoning |datum=2022-04-13 |sprache=en |abruf=2024-01-15 }}&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>LLMs werden beispielsweise bei [[Open Assistant]], [[ChatGPT]], [[Ernie Bot]] und [[Grok]] eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von [[OpenAI]] (z.&amp;nbsp;B. GPT-3.5 und GPT-4, die in ChatGPT und [[Microsoft Copilot]] verwendet werden), Googles [[PaLM]], [[Gemini (Sprachmodell)|Gemini]] und Gemma 2, [[LLaMA-Sprachmodell|Metas LLaMA-Familie]] von Open-Source-Modellen, [[Anthropic]]s [[Claude (Sprachmodell)|Claude]] und [[X.AI]]s Grok-1. Daneben gibt es auch leistungsfähige LLMs chinesischer Firmen wie diejenigen von [[Alibaba Group|Alibaba]], Deep Skeek, 01 AI und Zhipu AI.&lt;ref&gt;Markus Städeli: [https://www.nzz.ch/wirtschaft/die-rangliste-der-weltbesten-ki-chatbots-zeigt-bei-der-kuenstlichen-intelligenz-ist-china-den-amerikanischen-anbietern-dicht-auf-den-fersen-ld.1861889 ''Die Rangliste der weltbesten KI-Chatbots zeigt: Bei der künstlichen Intelligenz ist China den amerikanischen Anbietern dicht auf den Fersen.''] In: ''NZZ am Sonntag'', 14. Dezember 2024, abgerufen am 15. Dezember 2024&lt;/ref&gt; </div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>LLMs werden beispielsweise bei [[Open Assistant]], [[ChatGPT]], [[Ernie Bot]] und [[Grok]] eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von [[OpenAI]] (z.&amp;nbsp;B. GPT-3.5 und GPT-4, die in ChatGPT und [[Microsoft Copilot]] verwendet werden), Googles [[PaLM]], [[Gemini (Sprachmodell)|Gemini]] und Gemma 2, [[LLaMA-Sprachmodell|Metas LLaMA-Familie]] von Open-Source-Modellen, [[Anthropic]]s [[Claude (Sprachmodell)|Claude]] und [[X.AI]]s Grok-1. Daneben gibt es auch leistungsfähige LLMs chinesischer Firmen wie diejenigen von [[Alibaba Group|Alibaba]], <ins style="font-weight: bold; text-decoration: none;">[[</ins>Deep Skeek<ins style="font-weight: bold; text-decoration: none;">]]</ins>, 01 AI und Zhipu AI.&lt;ref&gt;Markus Städeli: [https://www.nzz.ch/wirtschaft/die-rangliste-der-weltbesten-ki-chatbots-zeigt-bei-der-kuenstlichen-intelligenz-ist-china-den-amerikanischen-anbietern-dicht-auf-den-fersen-ld.1861889 ''Die Rangliste der weltbesten KI-Chatbots zeigt: Bei der künstlichen Intelligenz ist China den amerikanischen Anbietern dicht auf den Fersen.''] In: ''NZZ am Sonntag'', 14. Dezember 2024, abgerufen am 15. Dezember 2024&lt;/ref&gt; </div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Geschichte ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Geschichte ==</div></td> </tr> </table> Gener https://de.wikipedia.org/w/index.php?title=Large_Language_Model&diff=252388723&oldid=prev Till.niermann: /* Trivia */ 2025-01-18T20:25:08Z <p><span class="autocomment">Trivia</span></p> <table style="background-color: #fff; color: #202122;" data-mw="interface"> <col class="diff-marker" /> <col class="diff-content" /> <col class="diff-marker" /> <col class="diff-content" /> <tr class="diff-title" lang="de"> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Nächstältere Version</td> <td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Version vom 18. Januar 2025, 22:25 Uhr</td> </tr><tr> <td colspan="2" class="diff-lineno">Zeile 50:</td> <td colspan="2" class="diff-lineno">Zeile 50:</td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Trivia ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Trivia ==</div></td> </tr> <tr> <td class="diff-marker" data-marker="−"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Um [[Fehlinformationseffekt|<del style="font-weight: bold; text-decoration: none;">Misinformation</del>]] durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forscher der [[Stanford University|Stanford-Universität]] 2024 ''WikiChat'' vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.&lt;ref&gt;{{Literatur |Autor=Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam |Titel=WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia |Datum=2023 |arXiv=2305.14292 |DOI=10.48550/ARXIV.2305.14292}}&lt;/ref&gt; Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.&lt;ref&gt;{{Internetquelle |url=https://github.com/stanford-oval/WikiChat |titel=WikiChat |werk=Open Virtual Assistant Lab |hrsg=Stanford University |sprache=en |abruf=2024-02-06}}&lt;/ref&gt;</div></td> <td class="diff-marker" data-marker="+"></td> <td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Um [[Fehlinformationseffekt|<ins style="font-weight: bold; text-decoration: none;">Fehlinformation</ins>]] durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forscher der [[Stanford University|Stanford-Universität]] 2024 ''WikiChat'' vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.&lt;ref&gt;{{Literatur |Autor=Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam |Titel=WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia |Datum=2023 |arXiv=2305.14292 |DOI=10.48550/ARXIV.2305.14292}}&lt;/ref&gt; Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.&lt;ref&gt;{{Internetquelle |url=https://github.com/stanford-oval/WikiChat |titel=WikiChat |werk=Open Virtual Assistant Lab |hrsg=Stanford University |sprache=en |abruf=2024-02-06}}&lt;/ref&gt;</div></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><br /></td> </tr> <tr> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> <td class="diff-marker"></td> <td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>== Siehe auch ==</div></td> </tr> </table> Till.niermann