OpenAI o3
開發者 | OpenAI |
---|---|
类型 | Generative pre-trained transformer |
OpenAI o3是由OpenAI于2024年12月20日发布生成式预训练(GPT) 模型。作为OpenAI目前最新的模型[1],OpenAI o3是OpenAI o1的升级版本,它为解答需要逻辑推理的问题留出更多的思考时间。 [2] [3]
命名
OpenAI之所以采用“o3”这一名称,是为了避免与名为移动运营商品牌O2发生商标冲突。
版本
这一代模型有两个版本:o3和o3-mini。 在 2024 年 12月,OpenAI曾邀请安全研究人员进行试用。 [2] [4] 2025 年 1 月 31 日,OpenAI正式向所有ChatGPT用户(包括免费用户)和API用户发布了o3-mini,这也是免费用户首次可以使用的“推理”模型。同时,它还发布了一款功能更强大的型号:o3-mini-high。 [5]
特性
OpenAI o3采用类似强化学习的方式,使其在回答之前进行“思考”。OpenAI将其称为“私有思维链(private chain of thought)”。这种方法使模型能够提前规划推理任务,执行一系列中间推理步骤来协助解决问题,但代价是额外的算力需求和更长的响应时间。 [6]
与OpenAI o1的比较
在编程、数学和科学等复杂逻辑任务上,o3的表现明显优于o1。 [2] 据OpenAI在其网站上发布的数据,o3在GPQA Diamond 基准上得分为87.7%(该基准包含网上未公开的专家级科学问题)。 [7]
在SWE-bench Verified(一个评估解决实际GitHub问题能力的软件工程基准)中,o3的得分为71.7%,而o1的得分为48.9%。在Codeforces上,o3的Elo分数达到了2727,而o1的分数为 1891。 [7]
在通用人工智能抽象与推理语料库 (ARC-AGI) 基准测试中,o3的准确率是o1的三倍。该测试用于评估人工智能处理新的、具有挑战性的逻辑和技能习得问题的能力。 [2] [8]
参考
- ^ OpenAI o3-mini. openai.com. [2025-02-02] (美国英语).
- ^ 2.0 2.1 2.2 2.3 Knight, Will. OpenAI Upgrades Its Smartest AI Model With Improved Reasoning Skills. Wired. December 20, 2024.
- ^ Metz, Cade. OpenAI Unveils New A.l. That Can 'Reason' Through Math and Science Problems. The New York Times. 2024-12-20.
- ^ Early access for safety testing. OpenAI. December 20, 2024.
- ^ Franzen, Carl. It’s here: OpenAI’s o3-mini advanced reasoning model arrives to counter DeepSeek’s rise. VentureBeat. 2025-01-31 [2025-02-01] (美国英语).
- ^ Zeff, Maxwell; Wiggers, Kyle. OpenAI announces new o3 models. TechCrunch. 2024-12-20 [2024-12-22] (美国英语).
- ^ 7.0 7.1 Franzen, Carl; David, Emilia. OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2024-12-26] (美国英语).
- ^ Hsu, Jeremy. OpenAI's o3 model aced a test of AI reasoning – but it's still not AGI. New Scientist. 20 December 2024 [2024-12-22] (美国英语).