OpenAI o3

OpenAI新一代旗舰推理模型,o系列迄今最智能的模型

深度报告

  • OpenAI o3 是 OpenAI 于 2025 年 4 月 17 日发布的新一代旗舰推理模型,属于 o 系列模型,旨在提升 ChatGPT 的问题解决能力。o3 是 o 系列迄今最智能的模型,在编程、数学、科学和视觉感知领域创下新纪录,首次将图像直接融入思维链,开启融合视觉与文本推理的全新问题解决方式。与轻量版 o4-mini 相比,o3 更适合复杂查询,能够生成并批判性评估新颖假设。定价方面,o3 输入费用为每百万 tokens 10 美元,输出费用为每百万 tokens 40 美元。

  • OpenAI 是美国人工智能研究机构,由埃隆·马斯克等人于 2015 年创立,总部位于旧金山。公司的核心使命是通用人工智能(AGI),先后发布了 GPT 系列大型语言模型和 o 系列推理模型。2024 年 12 月 21 日,OpenAI 在第 12 天发布会上首次公布 o3 和 o4-mini 的消息,引发全球科技圈关注。2025 年 4 月 17 日,两款模型正式发布,标志着 OpenAI 在推理能力、多模态交互及成本优化上的重大突破。

  • o3 模型的核心功能主要体现在以下几个方面。首先是推理能力的显著提升,o3 是 o 系列迄今最智能的模型,推理能力大幅提升,思考时间越长效果越好。其次是多模态推理能力,首次将图像直接融入思维链,开启融合视觉与文本推理的全新问题解决方式。第三是工具调用能力,首次全面支持网页搜索、文件分析、Python 代码执行、视觉输入深度推理和图像生成,能以正确格式快速生成可靠答案,通常耗时不到一分钟。第四是图像理解能力,可直接调用工具处理图片,裁剪、旋转、缩放等操作都不在话下即便图像模糊、反转或质量不佳,模型也能准确解读。第五是个性化记忆功能,支持记忆功能,能够了解用户兴趣爱好并个性化回答。第六是搜索验证能力,可多次调用搜索引擎,交叉验证结果。 在性能表现方面,o3 在多个基准测试中创下新纪录。视觉任务准确率达 87.5%,MathVista 测试得分 75.4%。外部专家评估显示,编程、商业咨询和创意构思的重大错误率比 o1 低 20%,特别适合复杂查询,能够生成并批判性评估新颖假设。 o4-mini 作为轻量版进行了专门优化,更适合需要快速响应的场景。AIME 2024 数学测试准确率 92.7%,AIME 2025 数学测试准确率 93.4%。在非 STEM 和数据科学任务中优于 o3-mini,效率更高。

  • o3 模型的定价采用了分层策略,具体价格如下:o3 输入费用为每百万 tokens 10 美元,输出费用为每百万 tokens 40 美元。o4-mini 输入费用为每百万 tokens 1.10 美元,输出费用为每百万 tokens 4.40 美元。约 75 万个 tokens 的处理长度超过《指环王》系列。 2025 年 6 月,OpenAI 宣布 o3 API 价格暴降 80%,进一步降低开发者使用门槛。o3-Pro 专注深度推理,性能领先,在 STEM 领域优势明显。降价后的 o3 冲击市场,针对不同需求提供差异化服务。 在可用性方面,ChatGPT Plus、Pro、Team 用户可立即使用。企业及教育用户一周后获得访问权限。免费用户可通过 Think 模式使用 o4-mini,速率限制不变。开发者可通过 Chat Completions API 和 Responses API 访问。

  • 从搜索到的用户反馈来看,o3 的发布引发了广泛关注和讨论。正面评价方面,用户普遍认可 o3 在推理能力和多模态处理上的突破,特别是图像思考功能被视为一项创新。多数用户认为 o3 在数学和编程任务上的表现优于前代产品。降价后的性价比得到了部分用户的认可。 负面反馈主要集中在定价方面。尽管有降价动作,但 o3 的使用成本仍然较高,对于个人开发者和小型团队来说负担不轻。有用户指出,使用 o3-PRO 的成本显著高于标准版。API 访问的稳定性也是用户关注的问题,在中国地区的访问体验有待优化。 使用场景方面,o3 特别适合需要深度推理的复杂查询场景,如编程开发、数学研究、科学计算等。对于需要快速响应的轻度任务,o4-mini 是更具性价比的选择。

  • 从行业角度来看,o3 的发布被视为 AI 技术发展的重要里程碑。业界普遍认为 o3 在推理能力上实现了显著提升,特别是在 STEM 领域的表现领先。图像思考功能的引入被认为是多模态 AI 的重要突破。o3-PRO 的发布标志着 AI 技术又向前迈出了一步。 然而,高昂的使用成本限制了其普及速度。部分观点认为 o3-PRO 既带来了更强大的功能和更精准的回答,也暴露出一些有待完善的地方。对于广大用户和开发者来说,o3 既是一个充满机遇的工具,也存在成本控制的挑战。

  • 技术层面,深度 AI 推理的可解释性仍然有限,在关键应用场景中的可靠性需要进一步验证。高推理成本带来的碳足迹问题也引发了一些环保人士的关注。 商业层面,持续的高端定价策略可能影响用户普及速度。部分用户对 API 价格波动表示担忧。竞争加剧的市场格局对 OpenAI 的定价权形成潜在挑战。

  • o3 特别适合以下人群使用:专业开发者和研究人员,需要复杂推理能力的用户,企业级应用场景,对多模态处理有需求的用户。 对于普通用户和对成本敏感的用户,o4-mini 是更具性价比的选择。ChatGPT Plus 订阅也提供了访问 o3 的渠道,适合常规使用场景。

  • OpenAI o3 是目前 o 系列最智能的模型,在推理能力、多模态理解和复杂任务处理上实现了显著突破。首次引入的图像思考功能开启了 AI 推理的新范式。高昂的使用成本仍是主要障碍,降价后有所改善建议根据实际需求选择合适的模型版本。

用户评论

  • 头像
    Logan_Adams369
    图像思考功能太香了,直接把截图丢进去就能分析,效率直接拉满。

  • 头像
    NFsa_n
    o3 的推理能力确实强,特别是复杂数学题,思考过程比 o1 详细太多了。

  • 头像
    Amanda_Collins_88
    价格还是太贵了,API 调用一次的成本够我用 Claude 好几次。

  • 头像
    PaulBell_66
    实测编程能力确实强,代码生成的质量比前代高一个档次。

  • 头像
    Judy_Johnson_X
    视觉任务 87.5% 准确率不是吹的,亲测有效。

  • 头像
    whitesnake738
    思维链可视化这个功能对学生党太友好了,可以学习 AI 的推理过程。

  • 头像
    SharonFloresJr
    降价 80% 后性价比高多了,之前嫌贵的可以再试试。

  • 头像
    Bobby_Hall_8839
    o3-pro 出来后果断订阅,深度推理确实香。

  • 头像
    PatriciaMendoza_77
    国内访问不稳定,经常超时,体验一般。

  • 头像
    LiamGray
    比 Google Gemini 和 Claude 都强,推理能力独一档。

  • 头像
    smallbird262
    MathVista 测试 75.4% 这分数太顶了,视觉理解目前最强。

  • 头像
    EvelynRivera_20231
    编程错误率比 o1 低 20%,实测写代码确实更稳了。

  • 头像
    DAOthinker29
    免费版用户体验阉割太多,不如加钱上 Plus。

  • 头像
    Evelyn.RogersX88
    企业用户一周后才能用,等得好焦虑。

  • 头像
    7EXK6NT8MN
    75 万 tokens 处理量,约等于《指环王》三部曲,这上下文太离谱。

  • 头像
    Rita816
    ChatGPT Plus 订阅就能用,比单独买 API 划算。

  • 头像
    任博然
    o4-mini 性价比更高,普通任务完全够用。

  • 头像
    Matthew_Patel_71
    多模态融合是最大亮点,图像和文本一起推理的体验很新鲜。

  • 头像
    organicfrog247
    OpenAI 史上最强推理模型实至名归,虽然贵但确实强。