Generativer vortrainierter Transformer

In der modernen künstlichen Intelligenz (KI) seit Ende der 2010er Jahre ist ein sogenannter generativer vortrainierter Transformer (englisch Generative pre-trained Transformer (GPT)) ein großes Sprachmodell (englisch Large Language Model (LLM)).

GPT-Modelle basieren auf künstlichen neuronalen Netzwerken (KNN) unter Anwendung generativer KI-Modelle (englisch GenAI) und von Transformer-Architektur, die auf großen Datensätzen unmarkierter Texte vorab trainiert werden und in der Lage sind, neue Inhalte zu generieren; sie werden oft allgemein als GPTs bezeichnet.

Das erste GPT-Modell (GPT-1) wurde 2018 vom US-amerikanischen Unternehmen OpenAI vorgestellt.^[2] Erst Ende 2022 folgte der ChatGPT-Service, der eine webbasierte Benutzerschnittstelle (Prompt) zu den nachfolgenden GPT-Modellen bereitstellt. Dies ist die proprietäre Schnittstelle von OpenAI. Andere Anbieter nutzen die Programmierschnittstelle (API) von KI-Modell-Herstellern und bieten eine eigene Benutzeroberfläche an, beispielsweise DuckDuckGo.^[2]

Entstehung und Entwicklung

Sogenanntes Generatives Vortraining war bereits ein etabliertes Algorithmuskonzept in der Anwendung von maschinellem Lernen (ML).^[3]^[4]

Im Jahr 2017 veröffentlichten Forscher von Google^[5] die Arbeit Attention Is All You Need, in der die Transformerarchitektur eingeführt wurde^[1], welche stark auf dem bereits zuvor entwickelten Konzept der Aufmerksamkeit basiert und seit diesem Zeitpunkt die neue Grundlage der Softwarearchitektur von GPTs wurde.^[6] Die Modelle zuvor (unter der Domäne Natural Language Processing (NLP)) beruhten noch auf dem überwachten Lernen und manuell markierten Daten. Sie waren daher beschränkt auf annotierte Datensätze. Ein Trainieren von großen Sprachmodellen war damit zu zeitaufwendig.^[7] Die Innovation der Transformer löste dieses Problem.

Dieser Baustein (Transformer^[1]) führte zu den folgenden softwarebasierten Sprachmodellen, auch bekannt als große Sprachmodelle (LLMs), da sie mathematisch-statistisch eine große Anzahl von Wörtern verarbeiten. Ein frühes Beispiel war der Bidirectional Encoder Representations from Transformers (BERT) von Google selbst, der 2018 veröffentlicht wurde.^[8] Wenig später wurde XLNet zur Verbesserung von BERT publiziert.^[9] Sie waren vorab trainierte Transformer, aber nicht generativ konzipiert, d. h. nur als Encoder aufgebaut.^[10]

Die Entwicklungsabteilung von OpenAI arbeitete ebenfalls seit 2015 an einem neuen Modell. Das LLM-Modell GPT-1 wurde im Jahr 2018 jedoch als reines Decoder-Modell eingeführt.^[7]^[11] Es war das erste generative, vorab trainierte Transformer(GPT)-Softwaresystem. Die GPT- und BERT-Modelle wurden auf der Datenbasis BookCorpus trainiert.^[12] Dieser Datensatz bzw. Textkorpus enthält 7000 selbstpublizierte Bücher und etwas unter einer Milliarde Wörter.^[13]

Das erste generative System, basierend auf der Transformertechnik, stammte von OpenAI. Der dort verwendete halbüberwachte Ansatz umfasste zwei Phasen: eine unbeaufsichtigte, generative Vortrainings-Phase, sowie eine überwachte, diskriminative Feinabstimmungs-Phase. Bei der ersten Phase wurden die anfänglichen Parameter anhand eines Sprachmodellierungsziels festgelegt. Bei der zweiten Phase wurden diese Parameter an eine Ziel-Aufgabe angepasst.^[7]

GPT-Grundlagenmodelle

Die rasante Entwicklung der GPT-Modelle führte zu einer neuen Basis. Man spricht von einem Grundlagenmodell (englisch Foundation Model), was ein KI-Modell ist, das auf umfangreichen Daten in großem Maßstab trainiert wurde, so dass es an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann. Diese Anpassungen sind auch als Feinabstimmung (englisch Fine-Tuning) bekannt.^[14]

OpenAI GPT-Modelle

Die von OpenAI veröffentlichten GPT-Modelle wurden bisher fortlaufend nummeriert, nach einer laufenden Versionsnummer, GPT-n. Beispielsweise wurde im Jahr 2025 wurde das GPT-5 LLM-Modell veröffentlicht.^[15] Jedes dieser Modelle war in seiner Funktionalität und Leistungsfähigkeit dem Vorgänger überlegen. Dies geht einher mit einer zunehmender Größe (bei KI-Modellen die Anzahl der trainierbaren Parameter – falls diese öffentlich bekannt gegeben wurden) und besseren Trainings des Modells. Das Unternehmen hat beispielsweise zu GPT-4o und auch zuvor zu GPT-4 keine Details zur Größe oder zum Training veröffentlicht, unter Berufung auf „den Wettbewerbsdruck und die Sicherheitsauswirkungen von Modellen im großen Maßstab“.^[16] Die Modelle bilden ein Softwareartefakt und Grundlage für ihre weitere GPT-Systeme, einschließlich Modellen, die für die Anweisungsbefolgung optimiert wurden und wiederum den ChatGPT-Service als Chatbot antreiben.^[17]

OpenAI „GPT-n“ LLM-Modelle
Modell	Architektur	Anzahl Parameter	Trainingsdaten	Veröffentlichungsdatum	Trainingskosten
GPT-1	12-stufiger 12-Kopf-Transformer-Decoder (kein Encoder), gefolgt von Linear-Softmax	117 Millionen	4,5 GB Text aus 7000 selbstpublizierten Büchern (BookCorpus^[18]) verschiedener Genres.	11. Juni 2018^[19]	„1 Monat auf 8 GPUs“,^[19] 1,7 · 10¹⁹ FLOP^[20]
GPT-2	GPT-1, jedoch mit modifizierter Normalisierung	1,5 Milliarden	WebText: 40 GB Text, 8 Millionen Dokumente, von 45 Millionen Webseiten, die auf Reddit positiv bewertet wurden.	erste/eingeschränkte Version: 14. Februar 2019 Vollversion: 5. November 2019^[21]	„Zehner Petaflop/s-Tag“,^[22] 1,5 · 10²¹ FLOP^[20]
GPT-3	GPT-2, jedoch mit Modifikation, um eine größere Skalierung zu ermöglichen	175 Milliarden ^[23]	499 Milliarden Token, bestehend aus CommonCrawl (570 GB), WebText, englischer Wikipedia und zwei Buchkorpora (Books1 und Books2).	28. Mai 2020^[22]	3640 Petaflop/s-Tag (Tabelle D.1)^[22] 3,1 · 10²³ FLOP^[20]
GPT-3.5	nicht veröffentlicht	175 Milliarden ^[23]	nicht veröffentlicht	15. März 2022	nicht veröffentlicht
GPT-4	Auch mit Textvorhersage und RLHF trainiert; akzeptiert sowohl Text als auch Bilder als Eingabe. Weitere Details sind nicht öffentlich.^[16]	nicht veröffentlicht	nicht veröffentlicht	14. März 2023	nicht veröffentlicht 2,1 · 10²⁵ FLOP (geschätzt)^[20]
GPT-4o	unbekannt			13. Mai 2024^[24]	nicht veröffentlicht
GPT-5	unbekannt			07. August 2025^[25]	nicht veröffentlicht

Weitere GPT-Modelle

Andere solche Grundlagenmodelle umfassen Googles PaLM, ein breites Grundlagenmodell, das mit GPT-3 verglichen wurde,^[26]^[27] sowie Togethers GPT-JT, das als die engste Open-Source-Alternative zu GPT-3 gilt (und von früheren Open-Source-GPTs abgeleitet ist).^[28]

Meta AI (ehemals Facebook) hat ebenfalls ein generatives, transformerbasiertes Sprachmodell namens LLaMA veröffentlicht.^[29]

Grundlegende GPTs können auch Modalitäten neben Text für die Eingabe und/oder Ausgabe verwenden. GPT-4 ist ein multimodales LLM, das in der Lage ist, Text- und Bilddaten zu verarbeiten.^[30] Bezüglich multimodaler Ausgabe werden generative, transformerbasierte Modelle für Text-zu-Bild-Technologien wie Diffusion^[31] und eine parallele Dekodierung^[32] eingesetzt. Solche Modelle können als visuelle Grundlagenmodelle dienen, um nachgelagerte Systeme zu entwickeln, die mit Bildern arbeiten können.^[33]

Aufgabenorientierte Modelle

Ein grundlegendes GPT-Modell kann weiter angepasst werden, um gezieltere Systeme für spezifische Aufgaben und/oder Fachbereiche zu erstellen. Methoden für solche Anpassungen können zusätzliche Feinabstimmung (über das für das Grundlagenmodell durchgeführte hinaus) sowie bestimmte Formen der Anweisungsgestaltung umfassen.^[34]

Ein wichtiges Beispiel dafür ist die Feinabstimmung von Modellen, um Anweisungen zu befolgen, was natürlich eine recht breite Aufgabe, aber zielgerichteter als ein Grundlagenmodell ist. Im Januar 2022 führte OpenAI InstructGPT ein, eine Serie von Modellen, die mit Hilfe einer Kombination aus überwachtem Training und bestärkendem Lernen durch menschliche Rückkopplung (RLHF) auf der Basis von GPT-3-Sprachmodellen darauf trainiert wurden, Anweisungen zu befolgen.^[35]^[36] Die Vorteile gegenüber den reinen Grundlagenmodellen umfassten eine höhere Genauigkeit, weniger negative/toxische Stimmung und eine allgemein bessere Übereinstimmung mit den Benutzerbedürfnissen. Daher begann OpenAI, dies als Grundlage für seine API-Serviceangebote zu nutzen.^[37] Auch andere an Anweisungen angepasste Modelle wurden von anderen veröffentlicht, einschließlich einer vollständig offenen Version.^[38]^[39]

Eine andere (verwandte) Art von aufgabenorientierten Modellen sind Chatbots, die menschenähnliche Unterhaltungen führen. Im November 2022 startete OpenAI ChatGPT, eine Online-Chat-Schnittstelle, die von einem aufgabenangepassten Sprachmodell betrieben wird, das ähnlich wie InstructGPT trainiert wurde.^[40] Dieses Modell wurde mit RLHF trainiert, wobei menschliche KI-Trainer Gespräche führten, in denen sie sowohl den Benutzer als auch die KI spielten, und dieser neue Dialogdatensatz mit dem InstructGPT-Datensatz für ein Unterhaltungsformat kombiniert wurde, das für einen Chatbot geeignet ist. Zu den weiteren bedeutenden Chatbots gehören derzeit Microsofts Copilot, der OpenAIs GPT-4 verwendet (als Teil einer engeren Zusammenarbeit zwischen OpenAI und Microsoft),^[41] und Googles konkurrierender Chatbot Bard (ursprünglich basierend auf ihrer LaMDA-Familie von auf Konversation trainierten Sprachmodellen, mit Plänen, zu PaLM zu wechseln).^[42]

Eine weitere Art von Aufgabe, für die ein GPT verwendet werden kann, ist die Meta-Aufgabe, seine eigenen Anweisungen zu generieren, indem es eine Reihe von Vorgaben für sich selbst entwickelt, um ein allgemeineres Ziel, das von einem menschlichen Benutzer gegeben wurde, zu erreichen.^[43] Dies wird als KI-Agent bezeichnet, genauer gesagt als ein rekursiver Agent, da er Ergebnisse aus seinen vorherigen Selbstanweisungen verwendet, um ihm bei der Bildung seiner nachfolgenden Vorgaben zu helfen. Das erste bedeutende Beispiel dafür war Auto-GPT (das OpenAIs GPT-Modelle verwendet), und seitdem wurden auch andere entwickelt.^[44]

Multimodalität

Generative, transformerbasierte Systeme können auch auf Aufgaben ausgerichtet sein, die Modalitäten jenseits von Text umfassen. Microsofts Visual ChatGPT zum Beispiel kombiniert ChatGPT mit visuellen Grundlagenmodellen (VFMs), um sowohl Bilder als auch Text als Eingabe oder Ausgabe zu ermöglichen.^[45] Darüber hinaus bieten Fortschritte in der Text-to-Speech-Technologie leistungsstarke Werkzeuge für die Erstellung von Audioinhalten, wenn sie in Verbindung mit grundlegenden GPT-Sprachmodellen verwendet werden.^[46]

Domänen-Spezifität

GPT-Systeme können auf bestimmte Bereiche oder Domänen ausgerichtet werden. Einige gemeldete Beispiele für solche Modelle und Apps sind wie folgt:

EinsteinGPT für die Bereiche Vertrieb und Marketing, um bei der Kundenbeziehungspflege zu helfen (verwendet GPT-3.5).^[47]
BloombergGPT für den Finanzbereich, um bei Finanznachrichten und -informationen zu helfen (verwendet frei verfügbare KI-Methoden in Kombination mit ihren proprietären Daten).^[48]
Khanmigo eine Version von GPT für Nachhilfezwecke im Bildungsbereich, unterstützt Schüler bei der Nutzung von Khan Academy, indem es sie durch ihr Lernen führt, ohne direkte Antworten zu geben (betrieben von GPT-4).^[49]^[50]
SlackGPT für den Instant-Messaging-Dienst Slack, um bei der Navigation und Zusammenfassung von Diskussionen zu helfen (verwendet OpenAI's API).^[51]
BioGPT für den biomedizinischen Bereich, um bei der Generierung und Auswertung von biomedizinischen Literaturtexten zu helfen (verwendet GPT-2).^[52]

Manchmal wird die Domänenspezifität durch Software-Plug-Ins oder Erweiterungen erreicht. Zum Beispiel haben verschiedene Unternehmen spezielle Plug-Ins entwickelt, die direkt mit der ChatGPT-Schnittstelle von OpenAI interagieren^[53]^[54], und Google Workspace bietet Erweiterungen wie GPT für Sheets und Docs an, die angeblich die Nutzung von Tabellenkalkulationsfunktionen in Google Sheets erleichtern sollen.^[55]^[56]

Begriff GPT und Markenrechte

Der Begriff GPT wird auch in den Namen und Beschreibungen von Modellen verwendet, die nicht von OpenAI entwickelt wurden. Verschiedene Forschungseinrichtungen und Unternehmen entwickelten ebenfalls GPT genannte Sprachmodelle – dies auch bereits vor dem Durchbruch von ChatGPT3.5. Beispielhaft seien EleutherAI oder Cerebras genannt.^[57]^[58] Auch Unternehmen in verschiedenen Branchen brachten auf ihren jeweiligen Gebieten aufgabenorientierte GPTs heraus wie z. B. EinsteinGPT von Salesforce (für CRM)^[59] und BloombergGPT von Bloomberg (für Finanzen).^[60]

OpenAI, das im Jahr 2018 den ersten generativen vorab trainierten Transformer (GPT) entwickelt hatte, verlangte im Mai 2023, dass GPT als Marke von OpenAI angesehen werden sollte.^[61] Im April 2023 überarbeitete OpenAI die Markenrichtlinien in seinen Nutzungsbedingungen, um anzuzeigen, dass andere Unternehmen, die seine API nutzen, um ihre KI-Dienste auszuführen, GPT nicht mehr in ihren Namen oder ihre Marken aufnehmen sollten.^[62] Im Mai 2023 beauftragte OpenAI einen Markenverwaltungsdienst, um seine API-Kunden über diese Richtlinie zu informieren, jedoch wurden in diesen Benachrichtigungen keine offensichtlichen rechtlichen Ansprüche erhoben (wie Markenrechtsverletzungen oder Aufforderungen zur Einstellung).^[61]

Im Zusammenhang damit stellte OpenAI beim United States Patent and Trademark Office (USPTO) einen Antrag auf Inlandsregistrierung von GPT und ChatGPT als Marken im Bereich der KI. OpenAI versuchte die Bearbeitung seines Antrags zu beschleunigen, aber das USPTO lehnte diesen Antrag im Frühjahr 2023 ab.^[63] Die Registrierungsfrage zog sich über das ganze Jahr, im Februar 2024 lehnte das USPTO dann die Registrierung erneut ab.^[64] Das Patentamt begründete dies damit, dass sowohl die Abkürzung GPT als auch der Begriff Chat zu deskriptiv und allgemeingebräuchlich seien.^[65]

In der Europäischen Union wurde GPT vom Amt der Europäischen Union für geistiges Eigentum im Frühjahr 2023 zunächst als Marke von OpenAI eingetragen. Der Eintrag wird allerdings seit Frühjahr 2024 angefochten und ist zur Löschung anhängig.^[66]

In der Schweiz wurde GPT vom Eidgenössischen Institut für Geistiges Eigentum im Frühjahr 2023 als Marke von OpenAI eingetragen.^[67]^[68]

Siehe auch

Liste von Chatbots

Literatur

Einzelnachweise

1 2 3 Ashish Vaswani et al.: Attention Is All You Need. In: Arxiv. 2. August 2023, abgerufen am 2. April 2026 (englisch, Erstveröffentlichung 2017, letzter Stand 2023).
1 2 Partha Pratim Ray: ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. In: Internet of Things and Cyber-Physical Systems. Band 3, 1. Januar 2023, ISSN 2667-3452, S. 121–154, doi:10.1016/j.iotcps.2023.04.003 (englisch, sciencedirect.com [abgerufen am 28. April 2026]).
↑ Geoffrey Hinton (et-al): Deep neural networks for acoustic modeling in speech recognition. In: IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. Jahrgang, 15. Oktober 2012, doi:10.1109/MSP.2012.2205597 (englisch, stanford.edu [PDF]).
↑ Li Deng: A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core. In: Apsipa Transactions on Signal and Information Processing. 3. Jahrgang. Cambridge.org, 22. Januar 2014, S. e2, doi:10.1017/atsip.2013.9 (englisch, cambridge.org [abgerufen am 21. Mai 2023]).
↑ Damals Google Brain und Google Research; siehe auch Google AI
↑ Steven Levy: 8 Google Employees Invented Modern AI. Here’s the Inside Story. In: Wired. ISSN 1059-1028 (wired.com [abgerufen am 2. April 2026]).
1 2 3 Alec Radford et al.: Improving Language Understanding by Generative Pre-Training. Hrsg.: OpenAI. 2018 (englisch, openai.com [PDF]).
↑ Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Arxiv. 24. Mai 2019, abgerufen am 2. April 2026 (englisch).
↑ Zhilin Yang et al.: XLNet: Generalized Autoregressive Pretraining for Language Understanding. In: Arxiv. 2. Januar 2020, abgerufen am 2. April 2026 (englisch).
↑ Amit Raja Naik: Google Introduces New Architecture To Reduce Cost Of Transformers. In: Analytics India Magazine. 23. September 2021; abgerufen im 1. Januar 1 (englisch).
↑ Rejaul Karim Barbhuiya et al.: Fundamentals of Encoders and Decoders in Generative AI. In: Generative AI: Current Trends and Applications. Band 1177. Springer Nature Singapore, Singapore 2024, ISBN 978-981-9784-59-2, S. 19–33, doi:10.1007/978-981-97-8460-8_2 (englisch, springer.com [abgerufen am 2. April 2026]).
↑ Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: ArXiv. 11. Oktober 2018, abgerufen am 1. April 2026 (englisch).
↑ Jack Bandy, Nicholas Vincent: Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus. In: Arxiv. 11. Mai 2021, abgerufen am 2. April 2026 (englisch).
↑ Introducing the Center for Research on Foundation Models (CRFM). In: Stanford HAI. Abgerufen im 1. Januar 1 (englisch).
↑ Hartmut Gieselmann: GPT-5: OpenAI veröffentlicht neues Sprachmodell für ChatGPT. 7. August 2025, abgerufen am 21. August 2025 (deutsch).
1 2 OpenAI: GPT-4 Technical Report. 2023, abgerufen am 16. März 2023 (englisch).
↑ Mohammed Haddad: How does GPT-4 work and how can you start using it in ChatGPT? In: www.aljazeera.com. Abgerufen im 1. Januar 1 (englisch).
↑ Yukun Zhu et al.: Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. In: Arxiv. 22. Juni 2015, abgerufen am 4. April 2026 (englisch, Originalpublikation zum BookCorpus. Der Datensatz ist bei Hugging Face neben hunderten bis tausenden anderen verfügbar.).
1 2 Improving language understanding with unsupervised learning. In: openai.com. Abgerufen am 18. März 2023 (amerikanisches Englisch).
1 2 3 4 ML input trends visualization. In: Epoch. Abgerufen am 2. Mai 2023 (englisch).
↑ James Vincent: OpenAI has published the text-generating AI it said was too dangerous to share. In: The Verge. 7. November 2019; abgerufen im 1. Januar 1 (englisch).
1 2 3 Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. In: Computer Science. 28. Mai 2020, arxiv:2005.14165v4 (englisch).
↑ Dave Ver Meer: ChatGPT Statistics. In: NamePepper. 1. Juni 2023, abgerufen am 9. Juni 2023 (englisch).
↑ OpenAI: Hello GPT-4o. In: openai.com/. OpenAI, 13. Mai 2024, abgerufen am 26. Mai 2024 (englisch).
↑ OpenAI: GPT-5 ist da. In: openai.com/. OpenAI, 7. August 2025, abgerufen am 7. August 2025.
↑ James Vincent: Google opens up its AI language model PaLM to challenge OpenAI and GPT-3. In: The Verge. 14. März 2023; abgerufen im 1. Januar 1 (englisch).
↑ Google Opens Access to PaLM Language Model. Abgerufen im 1. Januar 1 (englisch).
↑ Aparna Iyer: Meet GPT-JT, the Closest Open Source Alternative to GPT-3. In: Analytics India Magazine. 30. November 2022; abgerufen im 1. Januar 1 (englisch).
↑ Meta Debuts AI Language Model, But It's Only for Researchers. In: PCMAG. Abgerufen im 1. Januar 1 (englisch).
↑ Arham Islam: Multimodal Language Models: The Future of Artificial Intelligence (AI). 27. März 2023, archiviert vom Original am 15. Mai 2023; abgerufen am 28. Juli 2023 (englisch). Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ Arham Islam: How Do DALL·E 2, Stable Diffusion, and Midjourney Work? 14. November 2022; abgerufen im 1. Januar 1 (englisch).
↑ Shritama Saha: Google Launches Muse, A New Text-to-Image Transformer Model. In: Analytics India Magazine. 4. Januar 2023; abgerufen im 1. Januar 1 (englisch).
↑ Chenfei Wu et al.: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. In: Arxiv. 8. März 2023, abgerufen am 2. April 2026 (englisch).
↑ Rishi Bommasani (et-al): On the Opportunities and Risks of Foundation Models. 12. Juli 2022 (englisch).
↑ Aligning language models to follow instructions. In: openai.com. Abgerufen am 23. März 2023 (englisch).
↑ Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe: Training language models to follow instructions with human feedback. In: Computer Science. 4. März 2022, arxiv:2203.02155 (englisch).
↑ Meeta Ramnani: OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason. In: Analytics India Magazine. 28. Januar 2022; abgerufen im 1. Januar 1 (englisch).
↑ Stanford CRFM. In: crfm.stanford.edu. Abgerufen im 1. Januar 1 (englisch).
↑ Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM. In: Databricks. 12. April 2023; abgerufen im 1. Januar 1 (englisch).
↑ Introducing ChatGPT. In: openai.com. Abgerufen am 16. März 2023 (amerikanisches Englisch).
↑ Kyle Wiggers: Microsoft doubles down on AI with new Bing features. 4. Mai 2023; abgerufen im 1. Januar 1 (englisch).
↑ ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful? In: CNET. Abgerufen im 1. Januar 1 (englisch).
↑ Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents. In: Mashable. 19. April 2023; abgerufen im 1. Januar 1 (englisch).
↑ Bernard Marr: Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT. In: Forbes. Abgerufen im 1. Januar 1 (englisch).
↑ Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT. In: InfoQ. Abgerufen im 1. Januar 1 (englisch).
↑ Benj Edwards: Microsoft's new AI can simulate anyone's voice with 3 seconds of audio. In: Ars Technica. 9. Januar 2023; abgerufen im 1. Januar 1 (englisch).
↑ Ryan Morrison: Salesforce launches EinsteinGPT built with OpenAI technology. 7. März 2023; abgerufen im 1. Januar 1 (englisch).
↑ Kif Leswing: Bloomberg plans to integrate GPT-style A.I. into its terminal. In: CNBC. 13. April 2023; abgerufen im 1. Januar 1 (englisch).
↑ Learning nonprofit Khan Academy is piloting a version of GPT called Khanmigo. In: Fast Company. 4. Mai 2023, abgerufen am 22. Mai 2023 (englisch).
↑ Khan Academy Pilots GPT-4 Powered Tool Khanmigo for Teachers -. In: THE Journal. Abgerufen im 1. Januar 1 (englisch).
↑ Mark Hachman: Slack GPT will bring AI chatbots to your conversations. In: PCWorld. 4. Mai 2023; abgerufen im 1. Januar 1 (englisch).
↑ Renqian Luo (et-al): BioGPT: Generative pre-trained transformer for biomedical text generation and mining. In: Briefings in Bioinformatics. 23. Jahrgang, Nr. 6, 3. April 2023, doi:10.1093/bib/bbac409, PMID 36156661, arxiv:2210.10341 (englisch).
↑ Know about ChatGPT's 13 best plugins, designed to improve your overall user experience – Latest Digital Transformation Trends | Cloud News | Wire19. 5. Mai 2023; abgerufen im 1. Januar 1 (englisch).
↑ ChatGPT plugins. In: openai.com. Abgerufen im 1. Januar 1 (englisch).
↑ How to Use ChatGPT on Google Sheets With GPT for Sheets and Docs. In: MUO. 12. März 2023; abgerufen im 1. Januar 1 (englisch).
↑ Matt Asay: Embrace and extend Excel for AI data prep. In: InfoWorld. 27. Februar 2023; abgerufen im 1. Januar 1 (englisch).
↑ Language Modeling. 12. Februar 2024, abgerufen am 28. Mai 2024 (britisches Englisch).
↑ Tin Hoang: Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems. In: Cerebras. 28. März 2023, abgerufen am 28. Mai 2024 (amerikanisches Englisch).
↑ Ryan Morrison: Salesforce launches EinsteinGPT built with OpenAI technology. In: Tech Monitor. 7. März 2023; abgerufen im 1. Januar 1 (englisch).
↑ The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech. In: Forbes. Abgerufen im 1. Januar 1 (englisch).
1 2 William Hicks: ChatGPT creator OpenAI is asking startups to remove 'GPT' from their names. In: The Business Journal. 10. Mai 2023, abgerufen am 21. Mai 2023 (englisch).
↑ OpenAI: Brand Guidelines. 24. April 2023, abgerufen am 21. Mai 2023 (englisch).
↑ Connie Loizos: 'GPT' may be trademarked soon if OpenAI has its way. 25. April 2023, abgerufen am 28. Mai 2024 (amerikanisches Englisch).
↑ Todd Bishop: USPTO denies OpenAI’s attempts to trademark ‘ChatGPT’ and ‘GPT’. In: geekwire. geekwire.com, 15. Februar 2024, abgerufen am 28. Mai 2024 (englisch).
↑ USPTO rejects OpenAI’s “GPT” trademark application - Tech Startups. 7. Februar 2024, abgerufen am 28. Mai 2024 (amerikanisches Englisch).
↑ EUIPO - eSearch. Abgerufen am 4. September 2025.
↑ IGE Swissreg - Datenbanken. Eidgenössisches Institut für Geistiges Eigentum, 22. Februar 2023, abgerufen am 4. September 2025.
↑ Reto Vogt: OpenAI sichert sich in der Schweiz "GPT" als Markenname. In: Inside IT. 20. Februar 2024, abgerufen am 4. September 2025.

[:0-1] 1 2 3 Ashish Vaswani et al.: Attention Is All You Need. In: Arxiv. 2. August 2023, abgerufen am 2. April 2026 (englisch, Erstveröffentlichung 2017, letzter Stand 2023).

[:4-2] 1 2 Partha Pratim Ray: ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. In: Internet of Things and Cyber-Physical Systems. Band 3, 1. Januar 2023, ISSN 2667-3452, S. 121–154, doi:10.1016/j.iotcps.2023.04.003 (englisch, sciencedirect.com [abgerufen am 28. April 2026]).

[3] Geoffrey Hinton (et-al): Deep neural networks for acoustic modeling in speech recognition. In: IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. Jahrgang, 15. Oktober 2012, doi:10.1109/MSP.2012.2205597 (englisch, stanford.edu [PDF]).

[4] Li Deng: A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core. In: Apsipa Transactions on Signal and Information Processing. 3. Jahrgang. Cambridge.org, 22. Januar 2014, S. e2, doi:10.1017/atsip.2013.9 (englisch, cambridge.org [abgerufen am 21. Mai 2023]).

[5] Damals Google Brain und Google Research; siehe auch Google AI

[6] Steven Levy: 8 Google Employees Invented Modern AI. Here’s the Inside Story. In: Wired. ISSN 1059-1028 (wired.com [abgerufen am 2. April 2026]).

[:1-7] 1 2 3 Alec Radford et al.: Improving Language Understanding by Generative Pre-Training. Hrsg.: OpenAI. 2018 (englisch, openai.com [PDF]).

[8] Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Arxiv. 24. Mai 2019, abgerufen am 2. April 2026 (englisch).

[9] Zhilin Yang et al.: XLNet: Generalized Autoregressive Pretraining for Language Understanding. In: Arxiv. 2. Januar 2020, abgerufen am 2. April 2026 (englisch).

[10] Amit Raja Naik: Google Introduces New Architecture To Reduce Cost Of Transformers. In: Analytics India Magazine. 23. September 2021; abgerufen im 1. Januar 1 (englisch).

[11] Rejaul Karim Barbhuiya et al.: Fundamentals of Encoders and Decoders in Generative AI. In: Generative AI: Current Trends and Applications. Band 1177. Springer Nature Singapore, Singapore 2024, ISBN 978-981-9784-59-2, S. 19–33, doi:10.1007/978-981-97-8460-8_2 (englisch, springer.com [abgerufen am 2. April 2026]).

[:10-12] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: ArXiv. 11. Oktober 2018, abgerufen am 1. April 2026 (englisch).

[13] Jack Bandy, Nicholas Vincent: Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus. In: Arxiv. 11. Mai 2021, abgerufen am 2. April 2026 (englisch).

[14] Introducing the Center for Research on Foundation Models (CRFM). In: Stanford HAI. Abgerufen im 1. Januar 1 (englisch).

[15] Hartmut Gieselmann: GPT-5: OpenAI veröffentlicht neues Sprachmodell für ChatGPT. 7. August 2025, abgerufen am 21. August 2025 (deutsch).

[gpt4-report-16] 1 2 OpenAI: GPT-4 Technical Report. 2023, abgerufen am 16. März 2023 (englisch).

[Haddad-17] Mohammed Haddad: How does GPT-4 work and how can you start using it in ChatGPT? In: www.aljazeera.com. Abgerufen im 1. Januar 1 (englisch).

[18] Yukun Zhu et al.: Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. In: Arxiv. 22. Juni 2015, abgerufen am 4. April 2026 (englisch, Originalpublikation zum BookCorpus. Der Datensatz ist bei Hugging Face neben hunderten bis tausenden anderen verfügbar.).

[gpt1-19] 1 2 Improving language understanding with unsupervised learning. In: openai.com. Abgerufen am 18. März 2023 (amerikanisches Englisch).

[:3-20] 1 2 3 4 ML input trends visualization. In: Epoch. Abgerufen am 2. Mai 2023 (englisch).

[21] James Vincent: OpenAI has published the text-generating AI it said was too dangerous to share. In: The Verge. 7. November 2019; abgerufen im 1. Januar 1 (englisch).

[:2-22] 1 2 3 Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. In: Computer Science. 28. Mai 2020, arxiv:2005.14165v4 (englisch).

[:8-23] Dave Ver Meer: ChatGPT Statistics. In: NamePepper. 1. Juni 2023, abgerufen am 9. Juni 2023 (englisch).

[24] OpenAI: Hello GPT-4o. In: openai.com/. OpenAI, 13. Mai 2024, abgerufen am 26. Mai 2024 (englisch).

[25] OpenAI: GPT-5 ist da. In: openai.com/. OpenAI, 7. August 2025, abgerufen am 7. August 2025.

[26] James Vincent: Google opens up its AI language model PaLM to challenge OpenAI and GPT-3. In: The Verge. 14. März 2023; abgerufen im 1. Januar 1 (englisch).

[27] Google Opens Access to PaLM Language Model. Abgerufen im 1. Januar 1 (englisch).

[28] Aparna Iyer: Meet GPT-JT, the Closest Open Source Alternative to GPT-3. In: Analytics India Magazine. 30. November 2022; abgerufen im 1. Januar 1 (englisch).

[29] Meta Debuts AI Language Model, But It's Only for Researchers. In: PCMAG. Abgerufen im 1. Januar 1 (englisch).

[30] Arham Islam: Multimodal Language Models: The Future of Artificial Intelligence (AI). 27. März 2023, archiviert vom Original am 15. Mai 2023; abgerufen am 28. Juli 2023 (englisch). Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[31] Arham Islam: How Do DALL·E 2, Stable Diffusion, and Midjourney Work? 14. November 2022; abgerufen im 1. Januar 1 (englisch).

[32] Shritama Saha: Google Launches Muse, A New Text-to-Image Transformer Model. In: Analytics India Magazine. 4. Januar 2023; abgerufen im 1. Januar 1 (englisch).

[33] Chenfei Wu et al.: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. In: Arxiv. 8. März 2023, abgerufen am 2. April 2026 (englisch).

[34] Rishi Bommasani (et-al): On the Opportunities and Risks of Foundation Models. 12. Juli 2022 (englisch).

[instructgpt-blog-35] Aligning language models to follow instructions. In: openai.com. Abgerufen am 23. März 2023 (englisch).

[instructgpt-paper-36] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe: Training language models to follow instructions with human feedback. In: Computer Science. 4. März 2022, arxiv:2203.02155 (englisch).

[37] Meeta Ramnani: OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason. In: Analytics India Magazine. 28. Januar 2022; abgerufen im 1. Januar 1 (englisch).

[38] Stanford CRFM. In: crfm.stanford.edu. Abgerufen im 1. Januar 1 (englisch).

[39] Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM. In: Databricks. 12. April 2023; abgerufen im 1. Januar 1 (englisch).

[chatgpt-blog-40] Introducing ChatGPT. In: openai.com. Abgerufen am 16. März 2023 (amerikanisches Englisch).

[41] Kyle Wiggers: Microsoft doubles down on AI with new Bing features. 4. Mai 2023; abgerufen im 1. Januar 1 (englisch).

[42] ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful? In: CNET. Abgerufen im 1. Januar 1 (englisch).

[43] Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents. In: Mashable. 19. April 2023; abgerufen im 1. Januar 1 (englisch).

[44] Bernard Marr: Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT. In: Forbes. Abgerufen im 1. Januar 1 (englisch).

[45] Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT. In: InfoQ. Abgerufen im 1. Januar 1 (englisch).

[46] Benj Edwards: Microsoft's new AI can simulate anyone's voice with 3 seconds of audio. In: Ars Technica. 9. Januar 2023; abgerufen im 1. Januar 1 (englisch).

[47] Ryan Morrison: Salesforce launches EinsteinGPT built with OpenAI technology. 7. März 2023; abgerufen im 1. Januar 1 (englisch).

[48] Kif Leswing: Bloomberg plans to integrate GPT-style A.I. into its terminal. In: CNBC. 13. April 2023; abgerufen im 1. Januar 1 (englisch).

[49] Learning nonprofit Khan Academy is piloting a version of GPT called Khanmigo. In: Fast Company. 4. Mai 2023, abgerufen am 22. Mai 2023 (englisch).

[50] Khan Academy Pilots GPT-4 Powered Tool Khanmigo for Teachers -. In: THE Journal. Abgerufen im 1. Januar 1 (englisch).

[51] Mark Hachman: Slack GPT will bring AI chatbots to your conversations. In: PCWorld. 4. Mai 2023; abgerufen im 1. Januar 1 (englisch).

[52] Renqian Luo (et-al): BioGPT: Generative pre-trained transformer for biomedical text generation and mining. In: Briefings in Bioinformatics. 23. Jahrgang, Nr. 6, 3. April 2023, doi:10.1093/bib/bbac409, PMID 36156661, arxiv:2210.10341 (englisch).

[53] Know about ChatGPT's 13 best plugins, designed to improve your overall user experience – Latest Digital Transformation Trends | Cloud News | Wire19. 5. Mai 2023; abgerufen im 1. Januar 1 (englisch).

[54] ChatGPT plugins. In: openai.com. Abgerufen im 1. Januar 1 (englisch).

[55] How to Use ChatGPT on Google Sheets With GPT for Sheets and Docs. In: MUO. 12. März 2023; abgerufen im 1. Januar 1 (englisch).

[56] Matt Asay: Embrace and extend Excel for AI data prep. In: InfoWorld. 27. Februar 2023; abgerufen im 1. Januar 1 (englisch).

[57] Language Modeling. 12. Februar 2024, abgerufen am 28. Mai 2024 (britisches Englisch).

[58] Tin Hoang: Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems. In: Cerebras. 28. März 2023, abgerufen am 28. Mai 2024 (amerikanisches Englisch).

[59] Ryan Morrison: Salesforce launches EinsteinGPT built with OpenAI technology. In: Tech Monitor. 7. März 2023; abgerufen im 1. Januar 1 (englisch).

[60] The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech. In: Forbes. Abgerufen im 1. Januar 1 (englisch).

[:5-61] 1 2 William Hicks: ChatGPT creator OpenAI is asking startups to remove 'GPT' from their names. In: The Business Journal. 10. Mai 2023, abgerufen am 21. Mai 2023 (englisch).

[62] OpenAI: Brand Guidelines. 24. April 2023, abgerufen am 21. Mai 2023 (englisch).

[63] Connie Loizos: 'GPT' may be trademarked soon if OpenAI has its way. 25. April 2023, abgerufen am 28. Mai 2024 (amerikanisches Englisch).

[64] Todd Bishop: USPTO denies OpenAI’s attempts to trademark ‘ChatGPT’ and ‘GPT’. In: geekwire. geekwire.com, 15. Februar 2024, abgerufen am 28. Mai 2024 (englisch).

[65] USPTO rejects OpenAI’s “GPT” trademark application - Tech Startups. 7. Februar 2024, abgerufen am 28. Mai 2024 (amerikanisches Englisch).

[66] EUIPO - eSearch. Abgerufen am 4. September 2025.

[67] IGE Swissreg - Datenbanken. Eidgenössisches Institut für Geistiges Eigentum, 22. Februar 2023, abgerufen am 4. September 2025.

[68] Reto Vogt: OpenAI sichert sich in der Schweiz "GPT" als Markenname. In: Inside IT. 20. Februar 2024, abgerufen am 4. September 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]