GPT (语言模型)

机器学习与数据挖掘 |
---|
![]() |

基于转换器的生成式预训练模型[1](英語:Generative pre-trained transformers,GPT)是OpenAI于2018年开始开发[2]的一系列大型语言模型(LLM)[3][4][5],也是生成式人工智慧的重要框架[6][7]。GPT模型是基于Transformer模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本[4][5]。截至2023年,大多数LLM都具备这些特征[8],并广泛被称为GPT[9][10]。
OpenAI发布了具有极大影响力的GPT基础模型,它们按顺序编号,构成了“GPT-n”系列[11]。由于其规模(可训练参数数量)和训练程度的提升,每个模型相较于前一个都显著增强。其中最新的模型是GPT-4,于2023年3月发布。这些模型为更具任务特定性的GPT系统奠定了基础,包括经过微调以适应特定指令的模型——而这些又反过来为ChatGPT聊天机器人服务提供了支持[3] 。
术语“GPT”还用于命名和描述其他开发者所开发的模型。例如,其他GPT基础模型包括EleutherAI开发的一系列模型[12],以及Cerebras开发的七个模型[13]。此外,不同行业的公司还在其各自领域开发了执行特定任务的GPT,例如赛富时的“EinsteinGPT”(用于客户关系管理)[14]和彭博的“BloombergGPT”(用于金融领域)[15]。
历史
初步发展
生成式预训练(Generative pretraining,简称GP)是机器学习应用中一个历史悠久的概念[16][17],但直到2017年,Google的员工发明了Transformer模型[18],这才使得大型语言模型如BERT(2018年)[19]和XLNet(2019年)成为可能[20],这些模型是预训练的转换器(Pre-trained transformers,简称PT),但未被设计为生成式,而是“仅编码器”(encoder-only)[21]。2018年,OpenAI发表了题为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的文章,在其中首次介绍了基于转换器的生成式预训练模型(GPT)系统(“GPT-1”)[22]。
在基于转换器的架构出现之前,表现最优秀的神经自然语言处理(NLP)模型通常通过大量手动标记的数据进行监督学习。这种依赖于监督学习的开发途径限制了在未经充分标记的数据集上的应用,并且使得训练极大型语言模型相当耗时且开支非常昂贵[22]。
OpenAI采用半监督学习方法来构建大规模生成式系统,同时也是首个使用Transformer模型的方法。该方法包括两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调”阶段,将这些参数在目标任务上进行微调[22]。
后续发展
OpenAI于2020年7月发布了GPT-3的首个版本。其中包括三个模型,参数数量分别为10亿、67亿和1750亿,分别被命名为巴贝奇(babbage)、居里(curie)和达芬奇(davinci),分别以B、C和D作为简称。
2021年7月,OpenAI发布了Codex,是专门用于编程应用的特定任务GPT模型。该模型使用GitHub上的代码对GPT-3的12亿参数版本(与之前的GPT-3模型不同)进行代码微调而开发[23]。
2022年3月,OpenAI发布了两个针对指令跟随进行微调(即“指令微调”(instruction-tuned))的GPT-3版本,分别命名为davinci-instruct-beta(1750亿参数)和text-davinci-001[24],随后开始测试code-davinci-002[25]。text-davinci-002是通过code-davinci-002进行指令微调得到的。text-davinci-003和ChatGPT于2022年11月发布,两者都是在text-davinci-002的基础上通过基于人类反馈的强化学习方案[1](RLHF)得到的。text-davinci-003用于遵循指令(与其前身相似),而ChatGPT则经过进一步训练,可与人类用户进行对话交互[26][27] 。
OpenAI最新的GPT基础模型是GPT-4,于2023年3月14日发布。用户可以通过ChatGPT的高级版本直接访问它,而开发者则可通过OpenAI的API将其纳入其他产品和服务中。其他GPT基础模型的开发者包括EleutherAI(从2021年3月开始推出一系列模型)[12]和Cerebras(于2023年3月发布七个模型)[13]。
基础模型
基础模型是指在广泛的数据上进行大规模训练的AI模型,以便能够适用于各种下游任务[28] 。
迄今为止,最著名的GPT基础模型来自OpenAI的GPT-n系列。其中最新的是GPT-4,OpenAI选择不公开该模型的规模或训练细节,理由是“大规模模型的竞争环境和安全影响”[29]。
模型 | 架构 | 参数数量 | 训练数据 | 发布日期 | 训练成本 |
---|---|---|---|---|---|
GPT-1 | 12层,12头的Transformer解码器(没有编码器),后跟线性softmax层 | 1.17 亿 | BookCorpus[30]:一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。 | 2018年6月11日[2] | “使用8个GPU训练1个月”[2],或等价于1.7e19次浮点运算(FLOP)[31] |
GPT-2 | 基于GPT-1架构,但使用修改后的归一化方法 | 15亿 | WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。 | 2019年2月14日(初始/有限版)和2019年11月5日(完整版)[32] | “数十PetaFlop/s-day”[33],或等价于1.5e21次浮点运算[31] |
GPT-3 | 基于GPT-2架构,但修改以支持更大规模的训练 | 1750亿 | 一个总大小为570 GB的大规模文本语料库,其中包含约4990亿个标记。这些数据主要来自于Common Crawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。 | 2020年5月28日[33] | 3640 petaflop/s-day(Table D.1 [33]), 或等价于3.1e23次浮点运算[31] |
GPT-3.5 | 未公开 | 1750亿[34] | 未公开 | 2020年3月15日 | 未公开 |
GPT-4 | 使用文本预测和基于人类反馈的强化学习方案(RLHF)进行训练,并可以接受文本和图像输入。进一步的细节尚未公开[29] | 未公开 | 未公开 | 2023年3月14日 | 未公开。估计约为2.1e25次浮点运算[31] |
其他类似的模型包括Google的PaLM,与2023年3月通过API向开发者提供[35][36]。另外还有Together的GPT-JT,据报道是与GPT-3性能最接近的开源替代方案(源自早期的开源GPT模型)[37]。Meta AI(前身为Facebook)还拥有一个基于转换器的生成式基础大型语言模型(generative transformer-based foundational large language model),称为LLaMA[38]。
基础GPT模型还可以采用文本以外的模态进行输入和/或输出。GPT-4是一个多模态LLM,能够处理文本和图像输入(尽管其输出仅限于文本)[39]。多模态输出方面,一些基于转换器的生成式模型被用于文本到图像技术,如扩散[40]和并行解码[41]。此类模型可作为视觉基础模型(visual foundation models,简称VFMs),用于开发能够处理图像的下游系统[42]。
特定任务模型
基础GPT模型可以进一步适应特定任务和/或主题领域,形成更具针对性的系统。这种适应的方法可以包括额外的微调(超出基础模型的微调),以及某种形式的提示工程[43] 。
一个重要的例子是将模型微调以遵循指令,这当然是一个相当广泛的任务,但比基础模型更具针对性。2022年1月,OpenAI推出了“InstructGPT”系列模型,这些模型在GPT-3语言模型的基础上使用监督训练和基于人类反馈的强化学习方案(RLHF)进行微调,以遵循指令。与纯粹的基础模型相比,其优点包括更高的准确性、更少的负面情感,以及更好地符合用户需求。因此,OpenAI开始将它用作其API服务提供的基础。其他开发者也发布了不同的经过指令微调的模型,其中还有完全开源的模型[44][45]。
另一种(相关的)任务特定模型是聊天机器人,它可以进行类似人类对话的交流。2022年11月,OpenAI推出了ChatGPT。ChatGPT是一个在线聊天界面,由经过指令微调的语言模型提供支持,该模型的训练方式类似于InstructGPT[46]。OpenAI使用RLHF训练该模型,通过让人工智能训练员进行对话,扮演用户和AI的角色,并将这些新的对话数据集与InstructGPT数据集混合,形成了适合聊天机器人的对话格式。其他主要的聊天机器人还包括微软的Bing Chat,它使用OpenAI的GPT-4(作为OpenAI和微软之间更广泛合作的一部分),以及竞争对手Google的Bard聊天机器人(最初基于他们的LaMDA系列对话训练语言模型,计划转换为PaLM)[47]。
GPT还可以用于另一种元任务,即生成它自己的指令,如为“自己”开发一系列提示(prompt),以实现人类用户给定的更一般目标[48]。这被称为AI智能体,具体而言是递归性的,因为它利用前一次的自我指令结果来帮助形成后续的提示;这方面的一个重要例子是Auto-GPT(使用OpenAI的GPT模型),此外还有其他类似的模型被开发出来[49] 。
多模态性
基于转换器的生成式系统还可以针对涉及文本以外的其他模态的任务进行定制。
例如,微软的“Visual ChatGPT”结合了ChatGPT与视觉基础模型(VFMs),使其能够处理包含图像和文本的输入或输出[50]。此外,由于文本转语音技术的进步,当该技术与基础GPT语言模型结合使用时,可为音频内容的创作提供强大的工具[51]。
特定领域
參考資料
- ^ 1.0 1.1 冯志伟. 冯志伟教授聊ChatGPT. 中国科技术语. [2023-02-27]. (原始内容存档于2023-02-27) –通过微信公众平台.
- ^ 2.0 2.1 2.2 Improving language understanding with unsupervised learning. openai.com. June 11, 2018 [2023-03-18]. (原始内容存档于2023-03-18) (美国英语).
- ^ 3.0 3.1 Haddad, Mohammed. How does GPT-4 work and how can you start using it in ChatGPT?. www.aljazeera.com.
- ^ 4.0 4.1 Generative AI: a game-changer society needs to be ready for. World Economic Forum.
- ^ 5.0 5.1 The A to Z of Artificial Intelligence. Time. April 13, 2023.
- ^ Hu, Luhui. Generative AI and Future. Medium. November 15, 2022.
- ^ CSDL | IEEE Computer Society. www.computer.org.
- ^ Toews, Rob. The Next Generation Of Large Language Models. Forbes.
- ^ Toews, Rob. The Next Generation Of Large Language Models. Forbes.
- ^ Mckendrick, Joe. Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests. Forbes. March 13, 2023.
- ^ GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared. MUO. April 11, 2023.
- ^ 12.0 12.1 Alford, Anthony. EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. InfoQ. July 13, 2021.
- ^ 13.0 13.1 News (新闻稿).
- ^ Morrison, Ryan. Salesforce launches EinsteinGPT built with OpenAI technology. Tech Monitor. 7 March 2023.
- ^ The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech. Forbes.
- ^ Hinton (et-al), Geoffrey. Deep neural networks for acoustic modeling in speech recognition (PDF). IEEE Signal Processing Magazine. October 15, 2012,. Digital Object Identifier 10.1109/MSP.2012.2205597. S2CID 206485943. doi:10.1109/MSP.2012.2205597.
- ^ Deng, Li. A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core. Apsipa Transactions on Signal and Information Processing (Cambridge.org). 2014-01-22, 3: e2 [2023-05-21]. S2CID 9928823. doi:10.1017/atsip.2013.9.
- ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. December 5, 2017. arXiv:1706.03762
.
- ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. May 24, 2019. arXiv:1810.04805v2
.
- ^ Yang (et-al), Zhilin. XLNet (PDF). Proceedings from NeurIPS 2019. 2019.
- ^ Naik, Amit Raja. Google Introduces New Architecture To Reduce Cost Of Transformers. Analytics India Magazine. September 23, 2021.
- ^ 22.0 22.1 22.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF). OpenAI: 12. 11 June 2018 [23 January 2021]. (原始内容存档 (PDF)于26 January 2021).
- ^ Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray, Alex; Puri, Raul; Krueger, Gretchen; Petrov, Michael; Khlaaf, Heidy. Evaluating Large Language Models Trained on Code. 2021-07-01. arXiv:2107.03374
.
- ^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems. 2022-12-06, 35: 27730–27744. arXiv:2203.02155
(英语).
- ^ New GPT-3 capabilities: Edit & insert. openai.com. [2023-06-24] (美国英语).
- ^ Fu, Yao; Peng, Hao; Khot, Tushar. How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources. Yao Fu's Notion. 2022.
- ^ Model index for researchers. OpenAI API. [2023-06-23]. (原始内容存档于23 Jun 2023) (英语).
- ^ Introducing the Center for Research on Foundation Models (CRFM). Stanford HAI.
- ^ 29.0 29.1 OpenAI. GPT-4 Technical Report (PDF). 2023 [2023-03-16]. (原始内容存档 (PDF)于2023-03-14).
- ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015: 19–27. 2015 [2023-02-07]. arXiv:1506.06724
. (原始内容存档于2023-02-05).
- ^ 31.0 31.1 31.2 31.3 ML input trends visualization. Epoch. [2023-05-02] (英语).
- ^ Vincent, James. OpenAI has published the text-generating AI it said was too dangerous to share. The Verge. November 7, 2019.
- ^ 33.0 33.1 33.2 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Language Models are Few-Shot Learners. May 28, 2020. arXiv:2005.14165v4
.
- ^ 引用错误:没有为名为
:8
的参考文献提供内容 - ^ Vincent, James. Google opens up its AI language model PaLM to challenge OpenAI and GPT-3. The Verge. March 14, 2023.
- ^ Google Opens Access to PaLM Language Model.
- ^ Iyer, Aparna. Meet GPT-JT, the Closest Open Source Alternative to GPT-3. Analytics India Magazine. November 30, 2022.
- ^ Meta Debuts AI Language Model, But It's Only for Researchers. PCMAG.
- ^ Islam, Arham. Multimodal Language Models: The Future of Artificial Intelligence (AI). March 27, 2023.
- ^ Islam, Arham. How Do DALL·E 2, Stable Diffusion, and Midjourney Work?. November 14, 2022.
- ^ Saha, Shritama. Google Launches Muse, A New Text-to-Image Transformer Model. Analytics India Magazine. January 4, 2023.
- ^ Wu (et-al), Chenfei. Visual ChatGPT. March 8, 2023. arXiv:2303.04671
[cs.CV].
- ^ Bommasani (et-al), Rishi. On the Opportunities and Risks of Foundation Models. July 12, 2022. arXiv:2108.07258
[cs.LG].
- ^ Stanford CRFM. crfm.stanford.edu.
- ^ Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM. Databricks. April 12, 2023.
- ^ 引用错误:没有为名为
chatgpt-blog
的参考文献提供内容 - ^ ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?. CNET.
- ^ Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents. Mashable. April 19, 2023.
- ^ Marr, Bernard. Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT. Forbes.
- ^ Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT. InfoQ.
- ^ Edwards, Benj. Microsoft's new AI can simulate anyone's voice with 3 seconds of audio. Ars Technica. January 9, 2023.
- ^ Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder. 2023-01-29 [2023-02-27]. (原始内容存档于2023-02-07).
- ^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. BioGPT: generative pre-trained transformer for biomedical text generation and mining.. Brief Bioinform. 2022, 23 (6). PMID 36156661. doi:10.1093/bib/bbac409.
- ^ Ferruz, N., Schmidt, S. & Höcker, B.; et al. ProtGPT2 is a deep unsupervised language model for protein design.. Nature Communications volume. 2022, 13 [2023-02-27]. doi:10.1038/s41467-022-32007-7. (原始内容存档于2023-02-08).