OpenAI o3

o3-mini
開發者	OpenAI
首次发布	2025年1月31日
类型	GPT
许可协议	专有
网站	https://openai.com/index/openai-o3-mini/

OpenAI o3-mini是由OpenA发布的生成式预训练(GPT) 模型。作为OpenAI目前最新的模型^[1]，OpenAI o3-mini是OpenAI o1的升级版本，它为需要推理的问题留出了更多的思考时间。 ^[2] ^[3]

命名

OpenAI之所以采用“o3”这一名称，是为了避免与欧洲电信运营商品牌O2的商标发生冲突。

版本

此代模型正式提供服务的包括两个版本：o3-mini和o3-mini-high^[1]，Open AI o3完整版尚未正式发布。在2024年12月，OpenAI曾邀请安全研究人员进行内部试用。 ^[2] ^[4]2025年1月31日，OpenAI正式向所有ChatGPT用户（包括免费用户）和API用户发布了o3-mini，这也是免费用户首次可以使用的“推理”模型，其特点是在输出回答之前需要一段时间的思考时间。

使用限制

尽管o3-mini对所有注册用户开放使用，但目前对于o3-mini的使用量仍然存在很多限制：对于plus用户，o3-mini限制每天150次提问；o3-mini-high限制每周50次提问（此限制未在OpenAI官网中标注，故未来可能会做出改变）。^[5]

特性

OpenAI o3-mini采用类似强化学习的方式，使其在回答之前进行“思考”。OpenAI将其称为“私有思维链（private chain of thought）”。这种方法使模型能够提前规划推理任务，执行一系列中间推理步骤来协助解决问题，但代价是需要额外的算力和更长的响应时间。 ^[6]

OpenAI o3、Open AI o3 mini与OpenAI o1的比较

**o3测试版本与提供服务的正式版的对应**
测试版	正式版
o3-mini(low)
o3-mini(medium)	o3-mini
o3-mini(high)	o3-mini-high
o3	尚未发布

在编程、数学和科学等复杂逻辑任务上，o3的表现明显优于o1。 ^[2] 据OpenAI在其网站上发布的数据，o3在包含网上未公开的专家级科学问题的GPQA Diamond 基准上得分为87.7%，o3-mini(medium)为76.8%，o1则为78.0%。 ^[7]^[1]

在评估解决实际GitHub问题能力的软件工程基准SWE-bench Verified中，o3的得分为71.7%，o3-mini(medium)的得分为42.9%，而o1的得分为48.9%。在Codeforces上，o3的Elo分数达到了2727，o3-mini(medium)的分数为2036，而o1的分数为1891。 ^[7]

在通用人工智能抽象与推理语料库 (ARC-AGI) 基准测试中，o3的准确率是o1的三倍。该测试用于评估人工智能解决新颖逻辑问题、和技能习得问题的能力。 ^[2] ^[8]

参考

^ ^1.0 ^1.1 ^1.2 OpenAI o3-mini. openai.com. [2025-02-02] （美国英语）.
^ ^2.0 ^2.1 ^2.2 ^2.3 Knight, Will. OpenAI Upgrades Its Smartest AI Model With Improved Reasoning Skills. Wired. December 20, 2024.
^ Metz, Cade. OpenAI Unveils New A.l. That Can 'Reason' Through Math and Science Problems. The New York Times. 2024-12-20.
^ Early access for safety testing. OpenAI. December 20, 2024.
^ Healthy-Nebula-3603. O3 mini high - WHY ONLY 50 USES PER WEEK!. r/OpenAI. 2025-02-01 [2025-02-02].
^ Zeff, Maxwell; Wiggers, Kyle. OpenAI announces new o3 models. TechCrunch. 2024-12-20 [2024-12-22] （美国英语）.
^ ^7.0 ^7.1 Franzen, Carl; David, Emilia. OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2024-12-26] （美国英语）.
^ Hsu, Jeremy. OpenAI's o3 model aced a test of AI reasoning – but it's still not AGI. New Scientist. 20 December 2024 [2024-12-22] （美国英语）.

[:3-1] 1.0 ^1.1 ^1.2 OpenAI o3-mini. openai.com. [2025-02-02] （美国英语）.

[auto-2] 2.0 ^2.1 ^2.2 ^2.3 Knight, Will. OpenAI Upgrades Its Smartest AI Model With Improved Reasoning Skills. Wired. December 20, 2024.

[3] Metz, Cade. OpenAI Unveils New A.l. That Can 'Reason' Through Math and Science Problems. The New York Times. 2024-12-20.

[4] Early access for safety testing. OpenAI. December 20, 2024.

[5] Healthy-Nebula-3603. O3 mini high - WHY ONLY 50 USES PER WEEK!. r/OpenAI. 2025-02-01 [2025-02-02].

[:1-6] Zeff, Maxwell; Wiggers, Kyle. OpenAI announces new o3 models. TechCrunch. 2024-12-20 [2024-12-22] （美国英语）.

[:2-7] 7.0 ^7.1 Franzen, Carl; David, Emilia. OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2024-12-26] （美国英语）.

[:0-8] Hsu, Jeremy. OpenAI's o3 model aced a test of AI reasoning – but it's still not AGI. New Scientist. 20 December 2024 [2024-12-22] （美国英语）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

查论编
产品	ChatGPT DALL-E GitHub Copilot OpenAI Five Sora Whisper（英语：Whisper (speech recognition system)） SearchGPT GPT商店 GPTs OpenAI Deep Research
基础模型	OpenAI Codex GPT家族 GPT-1 GPT-2 GPT-3 GPT-4 GPT-4o o1 GPT-4.5 GPT-4.1
相關人物	萨姆·奥尔特曼格雷格·布羅克曼米拉·穆拉蒂伊爾亞·蘇茨克維
有关	AI Dungeon（英语：AI Dungeon） Auto-GPT "Deep Learning（英语：Deep Learning (South Park)）" Microsoft 365 Copilot Microsoft Bing
分类共享资源