GPT (语言模型)

机器学习与数据挖掘 |
---|
![]() |

基于转换器的生成式预训练模型[1](英語:Generative pre-trained transformers,GPT)是OpenAI于2018年开始开发[2]的一系列大型语言模型(LLM)[3][1][4],也是生成式人工智慧的重要框架[5][6]。GPT模型是基于Transformer模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本[1][4]。截至2023年,大多数LLM都具备这些特征[7],并广泛被称为GPT[8][9]。
OpenAI发布了具有极大影响力的GPT基础模型,它们按顺序编号,构成了“GPT-n”系列[10]。由于其规模(可训练参数数量)和训练程度的提升,每个模型相较于前一个都显著增强。其中最新的模型是GPT-4,于2023年3月发布。这些模型为更具任务特定性的GPT系统奠定了基础,包括经过微调以适应特定指令的模型——而这些又反过来为ChatGPT聊天机器人服务提供了支持[3] 。
术语“GPT”还用于命名和描述其他开发者所开发的模型。例如,其他GPT基础模型包括EleutherAI开发的一系列模型[11],以及Cerebras开发的七个模型[12]。此外,不同行业的公司还在其各自领域开发了执行特定任务的GPT,例如赛富时的“EinsteinGPT”(用于客户关系管理)[13]和彭博的“BloombergGPT”(用于金融领域)[14]。
应用
- ChatGPT (Chat Generative Pre-trained Transformer,基于转换器的交互式生成式预训练模型[1][4])是由OpenAI于2022年11月30日发布的一款聊天机器人。它采用的是GPT-3.5,应用了“基于人类反馈的强化学习方案”(Reinforcement Learning from Human Feedback,RLHF)。
- BioGPT是由微软开发的[15]一种专注于生物医学领域的GPT模型。[16]
- ProtGPT2是一种专注于蛋白质研究的GPT模型。[17]
历史
2018年6月11日,OpenAI发表了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)[18]的论文,在其中介绍了“基于转换器的生成式预训练模型”(GPT)。当时,表现最好的自然语言生成模型主要依靠大量手动标注数据的监督学习。这种依赖于人类监督学习的开发途径限制了模型在未经精细标注的数据集上的应用;许多语言(例如斯瓦希里语或海地克里奥尔语)也因缺乏能建立起语料库的文本资料而造成实际应用(如翻译和解释)上的困难[19];此外,训练超大模型相当耗时且开支非常昂贵。[18][19]
相比之下,GPT提出了一种“半监督(semi-supervised)”(后来普遍改称为“自监督”)的方法——先在没有标号的数据上面训练一个预训练模型,再在少量标号数据上面训练一个分辨的微调模型。[18]
参数数量 | 训练数据 | |
---|---|---|
GPT-1 | 1.2亿 | BookCorpus[20]:是一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。 |
GPT-2 | 15亿 | WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。 |
GPT-3 | 1750亿 | 一个总大小为570 GB的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。 |
參考資料
- ^ 1.0 1.1 1.2 1.3 冯志伟. 冯志伟教授聊ChatGPT. 中国科技术语. [2023-02-27]. (原始内容存档于2023-02-27) –通过微信公众平台. 引用错误:带有name属性“:0”的
<ref>
标签用不同内容定义了多次 - ^ 引用错误:没有为名为
gpt1
的参考文献提供内容 - ^ 3.0 3.1 Haddad, Mohammed. How does GPT-4 work and how can you start using it in ChatGPT?. www.aljazeera.com.
- ^ 4.0 4.1 4.2 The A to Z of Artificial Intelligence. Time. April 13, 2023. 引用错误:带有name属性“:4”的
<ref>
标签用不同内容定义了多次 - ^ Hu, Luhui. Generative AI and Future. Medium. November 15, 2022.
- ^ CSDL | IEEE Computer Society. www.computer.org.
- ^ Toews, Rob. The Next Generation Of Large Language Models. Forbes.
- ^ Toews, Rob. The Next Generation Of Large Language Models. Forbes.
- ^ Mckendrick, Joe. Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests. Forbes. March 13, 2023.
- ^ GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared. MUO. April 11, 2023.
- ^ Alford, Anthony. EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. InfoQ. July 13, 2021.
- ^ News (新闻稿).
- ^ Morrison, Ryan. Salesforce launches EinsteinGPT built with OpenAI technology. Tech Monitor. 7 March 2023.
- ^ The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech. Forbes.
- ^ Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder. 2023-01-29 [2023-02-27]. (原始内容存档于2023-02-07).
- ^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. BioGPT: generative pre-trained transformer for biomedical text generation and mining.. Brief Bioinform. 2022, 23 (6). PMID 36156661. doi:10.1093/bib/bbac409.
- ^ Ferruz, N., Schmidt, S. & Höcker, B.; et al. ProtGPT2 is a deep unsupervised language model for protein design.. Nature Communications volume. 2022, 13 [2023-02-27]. doi:10.1038/s41467-022-32007-7. (原始内容存档于2023-02-08).
- ^ 18.0 18.1 18.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF). OpenAI: 12. 11 June 2018 [23 January 2021]. (原始内容存档 (PDF)于26 January 2021).
- ^ 19.0 19.1 Tsvetkov, Yulia. Opportunities and Challenges in Working with Low-Resource Languages (PDF). Carnegie Mellon University. 22 June 2017 [23 January 2021]. (原始内容存档 (PDF)于31 March 2020).
- ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19–27. 2015 [2023-02-27]. (原始内容存档于2023-02-05).