Zum Inhalt springen

Generativer vortrainierter Transformer

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 16. Juni 2023 um 08:34 Uhr durch Windharp (Diskussion | Beiträge) (Paar Refs fixed). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Dieser Artikel wurde am 15. Juni 2023 auf den Seiten der Qualitätssicherung eingetragen. Bitte hilf mit, ihn zu verbessern, und beteilige dich bitte an der Diskussion!
Folgendes muss noch verbessert werden: Vollproigramm uinsbesondere Einzelnachweise Lutheraner (Diskussion) 23:57, 15. Jun. 2023 (CEST)
Originales GPT Modell

Generative vorab trainierte Transformer (GPT) sind eine Art großes Sprachmodell (LLM)[1][2][3] und ein bedeutendes Framework für generative künstliche Intelligenz.[4][5] Das erste GPT wurde 2018 vom amerikanischen Unternehmen für künstliche Intelligenz (KI) OpenAI vorgestellt.[6] GPT-Modelle sind künstliche neuronale Netzwerke, die auf der Transformer-Architektur basieren, auf großen Datensätzen unbeschrifteten Textes vorab trainiert werden und in der Lage sind, neuartige, menschenähnliche Inhalte zu generieren.[2] Bis 2023 haben die meisten LLMs diese Eigenschaften[7] und werden manchmal allgemein als GPTs bezeichnet.[7]

OpenAI hat sehr einflussreiche GPT-Grundmodelle veröffentlicht, die fortlaufend nummeriert wurden und die "GPT-n"-Serie bilden. Jedes dieser Modelle war signifikant leistungsfähiger als das vorherige, aufgrund zunehmender Größe (Anzahl der trainierbaren Parameter) und des Trainings. Das jüngste dieser Modelle, GPT-4, wurde im März 2023 veröffentlicht. Solche Modelle bilden die Grundlage für ihre spezifischeren GPT-Systeme, einschließlich Modellen, die für die Anweisungsbefolgung optimiert wurden und wiederum den ChatGPT-Chatbot-Service antreiben.[1]

Der Begriff "GPT" wird auch in den Namen und Beschreibungen von Modellen verwendet, die von anderen entwickelt wurden. Zum Beispiel umfasst eine Reihe von Modellen, die von EleutherAI erstellt wurden, weitere GPT-Grundmodelle. Kürzlich wurden auch sieben Modelle von Cerebras erstellt. Auch Unternehmen in verschiedenen Branchen haben auf ihren jeweiligen Gebieten aufgabenorientierte GPTs entwickelt, wie z.B. "EinsteinGPT" von Salesforce (für CRM)[12] und "BloombergGPT" von Bloomberg (für Finanzen).[13]

Geschichte

Generatives Vortraining (GP) war ein etabliertes Konzept in der Anwendung von maschinellem Lernen,[14][15] aber die Transformer-Architektur war erst ab 2017 verfügbar, als sie von Mitarbeitern bei Google erfunden wurde.[16] Diese Entwicklung führte zur Entstehung großer Sprachmodelle wie BERT im Jahr 2018[17] und XLNet im Jahr 2019,[18] die vorab trainierte Transformer (PT) waren, aber nicht generativ konzipiert wurden (sie waren nur "Encoder").[19] Auch um diese Zeit herum, im Jahr 2018, veröffentlichte OpenAI den Artikel "Improving Language Understanding by Generative Pre-Training", in dem das erste generative vorab trainierte Transformer (GPT)-System vorgestellt wurde.[20]

Vor den auf Transformer-Architekturen basierenden Modellen verwendeten die leistungsstärksten neuronalen NLP (Natural Language Processing)-Modelle häufig überwachtes Lernen aus großen Mengen manuell beschrifteter Daten. Die Abhängigkeit vom überwachten Lernen beschränkte ihren Einsatz auf Datensätze, die nicht gut annotiert waren, und machte es auch zu teuer und zeitaufwendig, extrem große Sprachmodelle zu trainieren.[20]

Der halbüberwachte Ansatz, den OpenAI verwendete, um ein groß angelegtes generatives System zu schaffen - und das erste, das mit einem Transformer-Modell gemacht wurde - umfasste zwei Phasen: eine unbeaufsichtigte, generative "Vortrainings"-Phase, um die anfänglichen Parameter anhand eines Sprachmodellierungsziels festzulegen, und eine überwachte, diskriminative "Feinabstimmungs"-Phase, um diese Parameter an eine Ziel-Aufgabe anzupassen.[20]

Grundlagenmodell

Ein Grundlagenmodell ist ein KI-Modell, das auf umfangreichen Daten in großem Maßstab trainiert wird, so dass es an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann.[21]

Bislang waren die bemerkenswertesten GPT-Grundmodelle OpenAI's GPT-n Serie. Das jüngste davon ist GPT-4, zu dem OpenAI die Größe oder Details zum Training nicht veröffentlicht hat (unter Berufung auf "den Wettbewerbsdruck und die Sicherheitsauswirkungen von Modellen im großen Maßstab").[22]

OpenAI's "GPT-n" series
Modell Architektur Anzahl Parameter Trainingsdaten Veröffentlichungsdatum Trainingskosten
GPT-1 12-level, 12-headed Transformer decoder (no encoder), followed by linear-softmax. 117 million BookCorpus: 4.5 GB of text, from 7000 unpublished books of various genres.
Vorlage:dts ist VERALTET – siehe dort.
[6]
"1 month on 8 GPUs",[6] or 1.7e19 FLOP.[8]
GPT-2 GPT-1, but with modified normalization 1.5 billion WebText: 40 GB of text, 8 million documents, from 45 million webpages upvoted on Reddit.
Vorlage:dts ist VERALTET – siehe dort.
(initial/limited version) and
Vorlage:dts ist VERALTET – siehe dort.
(full version)[9]
"tens of petaflop/s-day",[10] or 1.5e21 FLOP.[8]
GPT-3 GPT-2, but with modification to allow larger scaling 175 billion[11] 499 Billion tokens consisting of CommonCrawl (570 GB), WebText, English Wikipedia, and two books corpora (Books1 and Books2).
Vorlage:dts ist VERALTET – siehe dort.
[10]
3630 petaflop/s-day (Figure 2.2 [10]), or 3.1e23 FLOP.[8]
GPT-3.5 Undisclosed 175 billion[11] Undisclosed March 15, 2022 Undisclosed
GPT-4 Also trained with both text prediction and RLHF; accepts both text and images as input. Further details are not public.[12] Undisclosed Undisclosed
Vorlage:dts ist VERALTET – siehe dort.
Undisclosed. Estimated 2.1e25 FLOP.[8]

Andere solche Modelle umfassen Google's PaLM, ein breites Grundlagenmodell, das mit GPT-3 verglichen wurde und kürzlich über eine API für Entwickler verfügbar gemacht wurde,[28][29] sowie Together's GPT-JT, das als die engste Open-Source-Alternative zu GPT-3 gilt (und von früheren Open-Source-GPTs abgeleitet ist).[30] Meta AI (ehemals Facebook) hat ebenfalls ein generatives, transformerbasiertes grundlegendes Sprachmodell namens LLaMA.[31]

Grundlegende GPTs können auch Modalitäten neben Text für die Eingabe und/oder Ausgabe verwenden. GPT-4 ist ein multimodales LLM, das in der Lage ist, Text- und Bilddaten zu verarbeiten (wobei die Ausgabe auf Text beschränkt ist).[32] Bezüglich multimodaler Ausgabe werden generative, transformerbasierte Modelle für Text-zu-Bild-Technologien wie Diffusion[33] und parallele Dekodierung[34] eingesetzt. Solche Modelle können als visuelle Grundlagenmodelle (VFMs) dienen, um nachgelagerte Systeme zu entwickeln, die mit Bildern arbeiten können.[35]

Aufgabenorientierte Modelle

Ein grundlegendes GPT-Modell kann weiter angepasst werden, um gezieltere Systeme für spezifische Aufgaben und/oder Fachbereiche zu erstellen. Methoden für solche Anpassungen können zusätzliches Feintuning (über das für das Grundlagenmodell durchgeführte hinaus) sowie bestimmte Formen der Anweisungsgestaltung umfassen.[36]

Ein wichtiger Beispiel dafür ist das Feintuning von Modellen, um Anweisungen zu befolgen, was natürlich eine recht breite Aufgabe, aber zielgerichteter als ein Grundlagenmodell ist. Im Januar 2022 führte OpenAI "InstructGPT" ein - eine Serie von Modellen, die mit Hilfe einer Kombination aus überwachtem Training und verstärkendem Lernen durch menschliches Feedback (RLHF) auf der Basis von GPT-3-Sprachmodellen darauf trainiert wurden, Anweisungen zu befolgen.[13][14] Die Vorteile gegenüber den reinen Grundlagenmodellen umfassten eine höhere Genauigkeit, weniger negative/toxische Stimmung und eine allgemein bessere Übereinstimmung mit den Benutzerbedürfnissen. Daher begann OpenAI, dies als Grundlage für seine API-Serviceangebote zu nutzen.[39] Auch andere an Anweisungen angepasste Modelle wurden von anderen veröffentlicht, einschließlich einer vollständig offenen Version.[40][41]

Eine andere (verwandte) Art von aufgabenorientierten Modellen sind Chatbots, die menschenähnliche Unterhaltungen führen. Im November 2022 startete OpenAI ChatGPT - eine Online-Chat-Schnittstelle, die von einem aufgabenangepassten Sprachmodell betrieben wird, das ähnlich wie InstructGPT trainiert wurde.[15] Dieses Modell wurde mit RLHF trainiert, wobei menschliche KI-Trainer Gespräche führten, in denen sie sowohl den Benutzer als auch die KI spielten, und dieser neue Dialogdatensatz mit dem InstructGPT-Datensatz für ein Unterhaltungsformat kombiniert wurde, das für einen Chatbot geeignet ist. Zu den weiteren bedeutenden Chatbots gehören derzeit Microsofts Bing Chat, der OpenAI's GPT-4 verwendet (als Teil einer engeren Zusammenarbeit zwischen OpenAI und Microsoft),[43] und Googles konkurrierender Chatbot Bard (ursprünglich basierend auf ihrer LaMDA-Familie von auf Konversation trainierten Sprachmodellen, mit Plänen, zu PaLM zu wechseln).[44]

Eine weitere Art von Aufgabe, für die ein GPT verwendet werden kann, ist die Meta-Aufgabe, seine eigenen Anweisungen zu generieren, indem es eine Reihe von Vorgaben für 'sich selbst' entwickelt, um ein allgemeineres Ziel, das von einem menschlichen Benutzer gegeben wurde, zu erreichen.[45] Dies wird als KI-Agent bezeichnet, genauer gesagt als ein rekursiver Agent, da er Ergebnisse aus seinen vorherigen Selbstanweisungen verwendet, um ihm bei der Bildung seiner nachfolgenden Vorgaben zu helfen. Das erste bedeutende Beispiel dafür war Auto-GPT (das OpenAI's GPT-Modelle verwendet), und seitdem wurden auch andere entwickelt.[46]

Multimodalität

Generative, transformerbasierte Systeme können auch auf Aufgaben ausgerichtet sein, die Modalitäten jenseits von Text umfassen.

Microsofts "Visual ChatGPT" zum Beispiel kombiniert ChatGPT mit visuellen Grundlagenmodellen (VFMs), um sowohl Bilder als auch Text als Eingabe oder Ausgabe zu ermöglichen.[47] Darüber hinaus bieten Fortschritte in der Text-to-Speech-Technologie leistungsstarke Werkzeuge für die Erstellung von Audioinhalten, wenn sie in Verbindung mit grundlegenden GPT-Sprachmodellen verwendet werden.[48]

Domänen-Spezifität

GPT-Systeme können auf bestimmte Bereiche oder Domänen ausgerichtet werden. Einige gemeldete Beispiele für solche Modelle und Apps sind wie folgt:

  • EinsteinGPT - für die Bereiche Vertrieb und Marketing, um bei der Kundenbeziehungspflege zu helfen (verwendet GPT-3.5)[49].
  • BloombergGPT - für den Finanzbereich, um bei Finanznachrichten und -informationen zu helfen (verwendet "frei verfügbare" KI-Methoden in Kombination mit ihren proprietären Daten)[50].
  • Khanmigo - eine Version von GPT für Nachhilfezwecke im Bildungsbereich, unterstützt Schüler bei der Nutzung von Khan Academy, indem es sie durch ihr Lernen führt, ohne direkte Antworten zu geben (betrieben von GPT-4)[51][52].
  • SlackGPT - für den Instant-Messaging-Dienst Slack, um bei der Navigation und Zusammenfassung von Diskussionen zu helfen (verwendet OpenAI's API)[53].
  • BioGPT - für den biomedizinischen Bereich, um bei der Generierung und Auswertung von biomedizinischen Literaturtexten zu helfen (verwendet GPT-2)[54].

Manchmal wird die Domänenspezifität durch Software-Plug-Ins oder Erweiterungen erreicht. Zum Beispiel haben verschiedene Unternehmen spezielle Plug-Ins entwickelt, die direkt mit der ChatGPT-Schnittstelle von OpenAI interagieren[55][56], und Google Workspace bietet Erweiterungen wie "GPT für Sheets und Docs" an, die angeblich die Nutzung von Tabellenkalkulationsfunktionen in Google Sheets erleichtern sollen[57][58].

Markenrechte

OpenAI, das im Jahr 2018 den ersten generativen vorab trainierten Transformer (GPT) entwickelte, hat kürzlich behauptet, dass "GPT" als Marke von OpenAI angesehen werden sollte[59]. Im April 2023 überarbeitete OpenAI die Markenrichtlinien in seinen Nutzungsbedingungen, um anzuzeigen, dass andere Unternehmen, die seine API nutzen, um ihre KI-Dienste auszuführen, "GPT" nicht mehr in ihren Namen oder ihre Marken aufnehmen dürfen[60]. Im Mai 2023 beauftragte OpenAI einen Markenverwaltungsdienst, um seine API-Kunden über diese Richtlinie zu informieren, jedoch wurden in diesen Benachrichtigungen keine offensichtlichen rechtlichen Ansprüche erhoben (wie Markenrechtsverletzungen oder Aufforderungen zur Einstellung)[59].

Im Zusammenhang damit hat OpenAI beim United States Patent and Trademark Office (USPTO) einen Antrag auf Inlandsregistrierung der Marke "GPT" im Bereich der KI gestellt[59]. OpenAI hat versucht, die Bearbeitung seines Antrags zu beschleunigen, aber der USPTO hat diesen Antrag im April 2023 abgelehnt[61]. Um die Marke genehmigt zu bekommen, müsste OpenAI nachweisen, dass der Begriff tatsächlich "distinctive" für seine spezifischen Angebote ist und nicht allgemein als ein weiterer technischer Begriff für diese Art von Technologie verstanden wird. Einige Medienberichte legen nahe, dass OpenAI dies indirekt aufgrund der Bekanntheit seines auf GPT basierenden Chatbot-Produkts ChatGPT tun könnte[61][62], für das OpenAI separat Markenschutz beantragt hat (den es stärker durchzusetzen versucht)[63]. Andere Berichte deuten darauf hin, dass es unwahrscheinlich ist, dass die ausschließlichen Rechte an dem Begriff "GPT" gewährt werden[59][64], da er häufig einfach verwendet wird, um auf KI-Systeme zu verweisen, die generative vorab trainierte Transformer beinhalten[3][65][66]. Wenn exklusive Rechte an dem Begriff "GPT" selbst gewährt würden, müssten alle anderen, die ihn im Namen oder Branding ihrer entsprechenden Angebote verwenden, aufhören, es zu tun, es sei denn, sie haben die Erlaubnis[64]. Selbst wenn dies geschehen würde, könnte die Markendoktrin des beschreibenden fairen Gebrauchs immer noch etwas Spielraum für die Fortsetzung der nicht markenbezogenen Verwendung bieten[67].

Ausgewählte Bibliographie

In diesem Abschnitt werden die wichtigsten offiziellen Veröffentlichungen von OpenAI und Microsoft über ihre GPT-Modelle aufgelistet.

GPT-1: report, GitHub release.[6]

GPT-2: blog announcement, report on its decision of "staged release", GitHub release.[16]

GPT-3: report.[10]Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. 28. Mai 2020, arxiv:2005.14165v4.Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4. {{cite journal}}: Cite journal requires |journal= (help)</ref> No GitHub or any other form of code release thenceforth.

InstructGPT: blog announcement, report.

ChatGPT: blog announcement (no report).

GPT-4: blog announcement,[17] reports, model card.

Referenzen

  1. a b Mohammed Haddad: How does GPT-4 work and how can you start using it in ChatGPT? In: www.aljazeera.com.
  2. a b Generative AI: a game-changer society needs to be ready for. In: World Economic Forum.
  3. Vorlage:Cite magazine
  4. Luhui Hu: Generative AI and Future. In: Medium. 15. November 2022;.
  5. CSDL | IEEE Computer Society. In: www.computer.org.
  6. a b c d Improving language understanding with unsupervised learning. In: openai.com. Abgerufen am 18. März 2023 (amerikanisches Englisch).
  7. Joe Mckendrick: Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests. In: Forbes. 13. März 2023;.
  8. a b c d ML input trends visualization. In: Epoch. Abgerufen am 2. Mai 2023 (englisch).
  9. James Vincent: OpenAI has published the text-generating AI it said was too dangerous to share. In: The Verge. 7. November 2019;.
  10. a b c d Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. 28. Mai 2020, arxiv:2005.14165v4.
  11. a b Dave Ver Meer: ChatGPT Statistics. In: NamePepper. 1. Juni 2023, abgerufen am 9. Juni 2023 (englisch).
  12. OpenAI: GPT-4 Technical Report. 2023, abgerufen am 16. März 2023.
  13. Aligning language models to follow instructions. In: openai.com. Abgerufen am 23. März 2023.
  14. Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe: Training language models to follow instructions with human feedback. 4. März 2022, arxiv:2203.02155.
  15. Introducing ChatGPT. In: openai.com. Abgerufen am 16. März 2023 (amerikanisches Englisch).
  16. GPT-2: 1.5B release. In: openai.com. Abgerufen am 1. Mai 2023 (amerikanisches Englisch).
  17. GPT-4. In: openai.com. Abgerufen am 1. Mai 2023 (amerikanisches Englisch).