OpenAI o3

OpenAI新一代旗舰推理模型，o系列迄今最智能的模型

大语言模型

https://openai.com/o3

前往官网

深度报告

OpenAI o3 是 OpenAI 于 2025 年 4 月 17 日发布的新一代旗舰推理模型，属于 o 系列模型，旨在提升 ChatGPT 的问题解决能力。o3 是 o 系列迄今最智能的模型，在编程、数学、科学和视觉感知领域创下新纪录，首次将图像直接融入思维链，开启融合视觉与文本推理的全新问题解决方式。与轻量版 o4-mini 相比，o3 更适合复杂查询，能够生成并批判性评估新颖假设。定价方面，o3 输入费用为每百万 tokens 10 美元，输出费用为每百万 tokens 40 美元。
OpenAI 是美国人工智能研究机构，由埃隆·马斯克等人于 2015 年创立，总部位于旧金山。公司的核心使命是通用人工智能（AGI），先后发布了 GPT 系列大型语言模型和 o 系列推理模型。2024 年 12 月 21 日，OpenAI 在第 12 天发布会上首次公布 o3 和 o4-mini 的消息，引发全球科技圈关注。2025 年 4 月 17 日，两款模型正式发布，标志着 OpenAI 在推理能力、多模态交互及成本优化上的重大突破。
o3 模型的核心功能主要体现在以下几个方面。首先是推理能力的显著提升，o3 是 o 系列迄今最智能的模型，推理能力大幅提升，思考时间越长效果越好。其次是多模态推理能力，首次将图像直接融入思维链，开启融合视觉与文本推理的全新问题解决方式。第三是工具调用能力，首次全面支持网页搜索、文件分析、Python 代码执行、视觉输入深度推理和图像生成，能以正确格式快速生成可靠答案，通常耗时不到一分钟。第四是图像理解能力，可直接调用工具处理图片，裁剪、旋转、缩放等操作都不在话下即便图像模糊、反转或质量不佳，模型也能准确解读。第五是个性化记忆功能，支持记忆功能，能够了解用户兴趣爱好并个性化回答。第六是搜索验证能力，可多次调用搜索引擎，交叉验证结果。在性能表现方面，o3 在多个基准测试中创下新纪录。视觉任务准确率达 87.5%，MathVista 测试得分 75.4%。外部专家评估显示，编程、商业咨询和创意构思的重大错误率比 o1 低 20%，特别适合复杂查询，能够生成并批判性评估新颖假设。 o4-mini 作为轻量版进行了专门优化，更适合需要快速响应的场景。AIME 2024 数学测试准确率 92.7%，AIME 2025 数学测试准确率 93.4%。在非 STEM 和数据科学任务中优于 o3-mini，效率更高。
o3 模型的定价采用了分层策略，具体价格如下：o3 输入费用为每百万 tokens 10 美元，输出费用为每百万 tokens 40 美元。o4-mini 输入费用为每百万 tokens 1.10 美元，输出费用为每百万 tokens 4.40 美元。约 75 万个 tokens 的处理长度超过《指环王》系列。 2025 年 6 月，OpenAI 宣布 o3 API 价格暴降 80%，进一步降低开发者使用门槛。o3-Pro 专注深度推理，性能领先，在 STEM 领域优势明显。降价后的 o3 冲击市场，针对不同需求提供差异化服务。在可用性方面，ChatGPT Plus、Pro、Team 用户可立即使用。企业及教育用户一周后获得访问权限。免费用户可通过 Think 模式使用 o4-mini，速率限制不变。开发者可通过 Chat Completions API 和 Responses API 访问。
从搜索到的用户反馈来看，o3 的发布引发了广泛关注和讨论。正面评价方面，用户普遍认可 o3 在推理能力和多模态处理上的突破，特别是图像思考功能被视为一项创新。多数用户认为 o3 在数学和编程任务上的表现优于前代产品。降价后的性价比得到了部分用户的认可。负面反馈主要集中在定价方面。尽管有降价动作，但 o3 的使用成本仍然较高，对于个人开发者和小型团队来说负担不轻。有用户指出，使用 o3-PRO 的成本显著高于标准版。API 访问的稳定性也是用户关注的问题，在中国地区的访问体验有待优化。使用场景方面，o3 特别适合需要深度推理的复杂查询场景，如编程开发、数学研究、科学计算等。对于需要快速响应的轻度任务，o4-mini 是更具性价比的选择。
从行业角度来看，o3 的发布被视为 AI 技术发展的重要里程碑。业界普遍认为 o3 在推理能力上实现了显著提升，特别是在 STEM 领域的表现领先。图像思考功能的引入被认为是多模态 AI 的重要突破。o3-PRO 的发布标志着 AI 技术又向前迈出了一步。然而，高昂的使用成本限制了其普及速度。部分观点认为 o3-PRO 既带来了更强大的功能和更精准的回答，也暴露出一些有待完善的地方。对于广大用户和开发者来说，o3 既是一个充满机遇的工具，也存在成本控制的挑战。
技术层面，深度 AI 推理的可解释性仍然有限，在关键应用场景中的可靠性需要进一步验证。高推理成本带来的碳足迹问题也引发了一些环保人士的关注。商业层面，持续的高端定价策略可能影响用户普及速度。部分用户对 API 价格波动表示担忧。竞争加剧的市场格局对 OpenAI 的定价权形成潜在挑战。
o3 特别适合以下人群使用：专业开发者和研究人员，需要复杂推理能力的用户，企业级应用场景，对多模态处理有需求的用户。对于普通用户和对成本敏感的用户，o4-mini 是更具性价比的选择。ChatGPT Plus 订阅也提供了访问 o3 的渠道，适合常规使用场景。
OpenAI o3 是目前 o 系列最智能的模型，在推理能力、多模态理解和复杂任务处理上实现了显著突破。首次引入的图像思考功能开启了 AI 推理的新范式。高昂的使用成本仍是主要障碍，降价后有所改善建议根据实际需求选择合适的模型版本。

用户评论

Logan_Adams369

—

图像思考功能太香了，直接把截图丢进去就能分析，效率直接拉满。

NFsa_n

—

o3 的推理能力确实强，特别是复杂数学题，思考过程比 o1 详细太多了。

Amanda_Collins_88

—

价格还是太贵了，API 调用一次的成本够我用 Claude 好几次。

PaulBell_66

—

实测编程能力确实强，代码生成的质量比前代高一个档次。

Judy_Johnson_X

—

视觉任务 87.5% 准确率不是吹的，亲测有效。

whitesnake738

—

思维链可视化这个功能对学生党太友好了，可以学习 AI 的推理过程。

SharonFloresJr

—

降价 80% 后性价比高多了，之前嫌贵的可以再试试。

Bobby_Hall_8839

—

o3-pro 出来后果断订阅，深度推理确实香。

PatriciaMendoza_77

—

国内访问不稳定，经常超时，体验一般。

LiamGray

—

比 Google Gemini 和 Claude 都强，推理能力独一档。

smallbird262

—

MathVista 测试 75.4% 这分数太顶了，视觉理解目前最强。

EvelynRivera_20231

—

编程错误率比 o1 低 20%，实测写代码确实更稳了。

DAOthinker29

—

免费版用户体验阉割太多，不如加钱上 Plus。

Evelyn.RogersX88

—

企业用户一周后才能用，等得好焦虑。

7EXK6NT8MN

—

75 万 tokens 处理量，约等于《指环王》三部曲，这上下文太离谱。

Rita816

—

ChatGPT Plus 订阅就能用，比单独买 API 划算。

任博然

—

o4-mini 性价比更高，普通任务完全够用。

Matthew_Patel_71

—

多模态融合是最大亮点，图像和文本一起推理的体验很新鲜。

organicfrog247

—

OpenAI 史上最强推理模型实至名归，虽然贵但确实强。

OpenAI o3

深度报告

用户评论

相关链接

同类产品