GPT-5.5

OpenAI面向真实工作推出的新一代Agent型旗舰大模型,具备自主任务处理与跨工具操作能力

深度报告

  • GPT-5.5是OpenAI于2026年4月23日正式发布的新一代旗舰大模型,官方将其定位为"面向真实工作的全新智能层级"。这是自GPT-4.5以来首次从零开始训练的基座模型,在编程能力、计算机操作、知识工作和科研任务方面均有显著提升。 GPT-5.5 API输入价格为5美元/百万Token,输出价格为30美元/百万Token,较GPT-5.4涨价约一倍,但Token效率提升约40%,实际成本涨幅约为20%。社区反馈总体积极,开发者认为这是"可衡量的增量收益",在短代码任务和速度方面获得一致好评,但在长时间代理任务方面仍存在谨慎态度。

  • OpenAI成立于2015年,是全球领先的人工智能研究机构,总部位于美国旧金山。公司的核心产品包括ChatGPT对话助手、Codex编程辅助工具以及GPT系列大语言模型。2026年以来,OpenAI加快了产品迭代节奏,在4个月内连续发布GPT-5.4和GPT-5.5两代产品,展现出强烈的技术冲刺态势。 GPT-5.5的开发代号为"Spud"(土豆),于2026年3月24日完成预训练。该模型是OpenAI与英伟达联合设计、协同训练和协同部署的产物,充分利用了GB200和GB300 NVL72系统的计算能力。OpenAI首席科学家Jakub Pachocki表示,过去两年AI领域进步相对缓慢,但预计短期内会有显著改进,中期会有极其显著的改进。 从公司战略层面看,GPT-5.5的发布标志着OpenAI向"Super App"愿景迈出了重要一步。联合创始人Greg Brockman表示,公司计划将ChatGPT、Codex和AI浏览器整合为统一的单一服务,为企业客户提供更完整的解决方案。这一战略与竞争对手Elon Musk将X打造成"Super App"的计划形成直接竞争态势。

  • GPT-5.5在技术架构上实现了质的飞跃。与此前版本不同,GPT-5.5是首个明确定位为"Agent模型"的基座模型,其训练目标不再是单纯的对话能力,而是自主执行多步骤任务、调用工具、自我检查并持续推进直到任务完成的完整能力。这意味着GPT-5.5不再是一个"对话大模型+工具能力"的组合,而是一个"Agent基座+对话能力"的本质升级。 该模型提供两个变体:GPT-5.5 Thinking和GPT-5.5 Pro。Thinking是默认版本,替代ChatGPT中的GPT-5.4;Pro是高精度变体,价格是Thinking的6倍,但能获得个位数百分点的可靠性提升。API上下文窗口统一为100万Token,Codex平台为400K Token。

  • GPT-5.5被官方称为"目前最强的Agentic Coding模型"。在公开测试基准上,Terminal-Bench 2.0达到82.7%的准确率,领先第二名Claude Opus 4.7超过13个百分点;SWE-Bench Pro达到58.6%;OpenAI内部Expert-SWE基准更是显著高于GPT-5.4。该模型能够处理长链路任务:理解项目结构、定位失败原因、修改相关文件、补测试、验证结果,形成完整的开发工作流。 OpenAI内部超过85%的员工每周使用Codex,覆盖工程、财务、市场、公关、数据科学和产品管理等职能。财务团队借助GPT-5.5审阅了24771份K-1税表(共71637页),比去年提前两周完成。GTM团队用于自动生成周报,每周节省5至10小时重复性工作。

  • GPT-5.5在计算机操作方面展现出显著进步。OSWorld-Verified测试达到78.7%的成功率,与Claude Opus 4.7基本持平。该模型能够在一个或多个工具之间灵活切换,持续推进复杂任务,而不仅仅是回答问题。用户可以让GPT-5.5写代码、调试、查资料、分析数据、生成文档和表格、操作软件,完成从找资料、理解内容、调用工具到检查输出、整理成结果的完整流程。

  • GPT-5.5在知识工作领域表现突出。GDPval测试(44种职业知识工作模拟)达到84.9%的任务达到或超过行业专家水平。在商业、法律、教育和数据科学领域,回答的全面性、结构性和实用性显著提升。内部测试中,电子表格建模任务获得88.5%准确率,投资银行级别建模任务也保持领先。 在科研领域,GPT-5.5展现了协助进行尖端研究的能力。遗传学、定量生物学、生物信息学等领域的测试表现明显改进,GeneBench和BixBench测试取得优异成绩。OpenAI内部版本配合自定义工具链,帮助发现了关于Ramsey数的一个新数学证明,并在形式化证明工具Lean中完成验证。波兹南大学数学系助理教授Bartosz Naskręcki仅凭一条提示词,在11分钟内构建出代数几何应用。Jackson实验室免疫学教授Derya Unutmaz使用GPT-5.5 Pro分析了两个血液样本、共近28000个基因的基因表达数据集,节省了数月工作量。

  • 尽管模型更大,但GPT-5.5的per-token latency与GPT-5.4相当。Codex编写负载分配启发式算法使Token生成速度提升超过20%,同时模型反过来帮助改进服务它的基础设施,实现了一种自我优化的良性循环。在安全方面,网络安全能力比GPT-5.4有所提升,部署了更严格的分类器针对高风险活动和敏感网络安全请求,同时也提供Trusted Access for Cyber让经过验证的防御性用户获得更少阻碍。

  • GPT-5.5的API定价相比GPT-5.4有明显上涨。GPT-5.5输入价格为5美元/百万Token,输出价格为30美元/百万Token,是GPT-5.4(2.50美元/15美元)的约2倍。GPT-5.5 Pro的输入价格为30美元/百万Token,输出价格为180美元/百万Token。 值得注意的是,虽然单价涨幅约100%,但Token效率提升约40%,按Artificial Analysis的Intelligence Index测算,GPT-5.5(medium)能用 Opus 4.7(max)四分之一的钱拿到相同的智能水平(约1200美元 vs 4800美元)。Batch和Flex定价为标准API价格的一半,Priority processing定价为标准价格的2.5倍。

  • ChatGPT端的GPT-5.5 Thinking面向Plus、Pro、Business和Enterprise用户,GPT-5.5 Pro仅面向Pro、Business和Enterprise用户。Codex端支持Plus、Pro、Business、Enterprise、Edu和Go计划,提供400K上下文支持,Fast模式下Token生成速度提升1.5倍,成本为2.5倍。 参考订阅价格:Plus为20美元/月,Pro为200美元/月。OpenAI的发布节奏极快,从2025年11月至2026年4月连续发布多代产品,展现出强烈的市场竞争态势。

  • GPT-5.5发布24小时内的社区反馈主要来自r/codex、r/ChatGPT、Hacker News和X,与GPT-5发布时不同,这次的技术性讨论更多,因为早期采用者主要是开发者和高级用户。 正面反馈集中在三个方面。第一,在短代码循环任务上,GPT-5.5首次草稿表现更干净,针对组件实现、独立bug修复、范围明确的PR审查等任务需要更少的修正周期。Every创始人兼CEO Dan Shipper评价这是他"用过的第一个真正具备概念清晰度的编程模型"。第二,在速度方面,MagicPath CEO Pietro Schirano报告GPT-5.5在大约20分钟内完成了一个包含数百个前端更改的分支合并,其他早期访问合作伙伴也描述了相同的体验。第三,在Token效率上,开发者普遍认为能节省10%至30%的时间。 混合反馈主要集中在长时间执行任务上。社区对于仓库级任务、多文件更改或运行超过一小时的代理仍保持谨慎。自GPT-5以来的反复投诉是20次代理轮次后对指令的忠诚度会下降,目前尚无明确证据表明GPT-5.5已彻底解决这一问题。Cursor联合创始人Michael Truell评价GPT-5.5"比GPT-5.4更聪明、更坚韧,在复杂长时任务中能坚持更久",但也承认仍有提升空间。

  • 英伟达工程师在失去GPT-5.5访问权限后表示"感觉就像截肢",体现了该模型在专业开发者群体中的重要地位。Axiom Bio联合创始人Brandon White预测,如果OpenAI保持这一势头,年底前药物发现的基础将会改变。

  • 涨价引发了一定争议。Plus用户每周限制200条消息,实际体验被视为降级。有用户认为价格上涨可能导致部分Plus用户流失,特别是在高并发短对话场景下,GPT-5.4便宜一半可能是更经济的选择。

  • GPT-5.5在多个权威基准测试中展现领先实力。Terminal-Bench 2.0(命令行工作流)达到82.7%,领先Claude Opus 4.7超过13个百分点;OSWorld-Verified(真实电脑操作)达到78.7%,与Claude Opus 4.7基本持平;GDPval(44种职业知识工作)达到84.9%,显著领先;CyberGym(网络安全)达到81.8%;FrontierMath Tier 4(Pro版本)达到39.6%,领先Claude Opus 4.7近一倍。 在Artificial Analysis的Intelligence Index排名中,GPT-5.5(xhigh)获得60分,Claude Opus 4.7和Gemini 3.1 Pro均为57分。这是OpenAI在主要基准测试中重新夺回领先位置的重要标志。

  • GPT-5.5的发布加剧了AI领域的竞争态势。就在GPT-5.5发布的同一天,DeepSeek V4也正式推出,两款顶级模型几乎同时亮相,引发了关于AI竞争格局变化的广泛讨论。OpenAI通过GPT-5.5展示了其在Agent能力上的技术领先,同时也暴露出在价格策略上的激进立场。 部分观察者认为,GPT-5.5在Agent场景有明显优势,但不是全方位超越。Claude Opus 4.7在代码库级别修复任务(SWE-Bench、多语言理解)上仍然领先。两者不在同一个维度竞争,应按任务选模型而非按榜单选模型。

  • GPT-5.5在AA-Omniscience基准测试中的准确率达到57%(有记录以来最高),但幻觉率也达到86%(同样为最高)。相比之下,Claude Opus 4.7幻觉率为36%,Gemini 3.1 Pro为50%。这意味着模型在"知道"的时候回答得更准,但在"不确定"时更愿意"编"而不是说"不确定"。对于事实问答、引用生成、合规等幻觉零容忍场景,用户应先跑数据集验证。

  • API价格上涨约一倍引发部分用户不满。对于高并发短对话场景,GPT-5.4可能是更经济的选择。Plus用户的每周消息限制也被视为实际体验降级。

  • 更严格的风险分类器部署可能导致部分合法用例的误拦截,特别是在网络安全研究和企业内部自动化场景中。OpenAI在提升安全性的同时如何平衡用户体验,仍是值得关注的问题。

  • Agent工作流场景(多步工具调用、终端自动化、浏览器操作)强烈推荐升级GPT-5.5。长上下文分析场景(代码库、财报、研究文献)也建议升级,但需先算好预算。科研人员和数据分析师会发现该模型在处理复杂数据集时带来显著效率提升。

  • 代码库级别修复任务建议先测试,因为Opus 4.7可能表现更好。高并发短对话场景建议留在GPT-5.4,便宜一半。幻觉零容忍场景(事实问答、引用生成、合规)建议先跑数据集验证效果。

  • 对于预算有限的用户,GPT-5.4仍然是可靠的选择。对于追求最高智能水平的用户,GPT-5.5 Pro是面向Pro及以上订阅的最高配置版本。对于特定垂直场景,Claude Opus 4.7在代码理解任务上可能更具优势。

  • GPT-5.5是OpenAI面向Agent时代的重要产品,定位为"面向真实工作的全新智能层级"。该模型在智能体编码、计算机操作、知识工作和科研能力方面实现显著突破,基准测试表现领先竞品,但在幻觉率控制和价格策略上存在争议。社区反馈总体积极,开发者认为能带来10%至30%的效率提升,是"可衡量的增量收益"而非"代际飞跃"。对于需要处理复杂多步骤任务的专业用户,GPT-5.5值得考虑;对于简单对话和预算敏感场景,可以继续使用GPT-5.4或更早版本。

用户评论

  • 头像
    RYhen
    Per-token latency和5.4相当但模型大了很多,这个效率优化确实有点东西,据说模型自己帮自己调了推理基础设施的参数。

  • 头像
    JMyersSr
    我测试了用它做开源桌面项目的新终端功能,之前5.4跑了两轮都卡死,5.5一轮就搞定了可运行的版本,还会自己用Computer Use验证功能。

  • 头像
    ubfgyfe
    Drug discovery场景用它分析基因数据,节省了数月工作量,不是吹的。

  • 头像
    James_Adams_2020044
    说真的,涨价比性能提升还快,从2.5美元直接跳到5美元,真敢定。

  • 头像
    熊悦琪
    作为数学系的人,看到Ramsey数新证明被Lean验证了,感觉真的有点东西。

  • 头像
    姚萍兰
    最好的使用方式:让Claude做规划,GPT-5.5去执行,两者配合不要太爽。

  • 头像
    RWard_88
    Agent场景用它跑了自动化工作流,多步工具调用、终端自动化、长链路任务都hold住了,确实是目前最强的Agentic Coding模型,不过复杂规划还是Claude更强。

  • 头像
    JudithMendoza369063
    CyberGym 81.8%,网络安全能力提升明显,但高风险请求可能会被更严的分类器拦截,安全研究人员需要注意。

  • 头像
    RGray_Plus
    OpenAI这是要把ChatGPT、Codex和AI浏览器整合成一个超级App?野心不小。

  • 头像
    JParker_477
    用了半小时,感觉它更像一个能独立完成任务的员工,而不是只会回答问题的聊天机器人。

  • 头像
    Sandra.Martin_77
    SWE-Bench Pro只有58.6%,比Claude Opus 4.7的64.3%还是差点,代码库级别的修复任务还是Opus更强。

  • 头像
    bluepeacock215
    看评测文章说它更像一个高效率的执行者,而不是全能的艺术家,这个定位挺准的。

  • 头像
    browndog487
    GDPval测试84.9%达到专家水平,知识工作场景真的强,但前端设计审美还是差点意思,做出来的东西能用但不够好看。

  • 头像
    JerryBrooksSr944
    太强了,Terminal-Bench 82.7%,Claude直接被碾了!

  • 头像
    骑士597
    Copilot plus用户哭了,200刀一个月还不带Pro功能。

  • 头像
    Nod_ePro
    让它帮我做了个14页的PPT,质量超出预期,关键是速度快得离谱。

  • 头像
    RussellGonzales_Pro5
    安全分类器更严了,网络安全研究可能会有误拦截,希望Trusted Access for Cyber能解决这个问题。

  • 头像
    SusanGonzalez
    英伟达工程师说失去它像截肢,这形容真绝了哈哈哈。

  • 头像
    SAwri
    GPT-4.5之后首个从头训练的基座模型,果然不一样,架构换了训练目标都变了。

  • 头像
    MPhillips007
    我是做数据科学的,这模型分析数据集的能力提升太大了,两个血液样本28000个基因都能处理。

  • 头像
    greenrabbit862
    API还没正式开放,等着,但价格确实不便宜,企业用的话得好好算算成本收益。

  • 头像
    月光_3
    编程确实强了,但前端审美还是不如Claude,设计出来的东西能用但不好看。

  • 头像
    JWard369
    API价格翻倍有点狠,不过Pro版180美元/million输出也不便宜。

  • 头像
    CRhan
    速度提升感知很明显,同样的任务跑下来快了很多。

  • 头像
    Tyler_FloresIII
    Batch和Flex定价半价,如果能接受非即时响应,这个价格还算友好。

  • 头像
    Sean_Nguyen_Pro
    Codex配合GPT-5.5用了两周,最大的感受是对模糊需求的理解能力强了很多,工具调用也更稳定,整体效率提升明显。

  • 头像
    DrMar'yanZaporozhec
    Pro版贵到离谱,但如果做严肃的科研工作,这钱值得。

  • 头像
    Jere_myHoward
    token效率提升40%,算下来实际成本涨幅只有20%,还行吧。

  • 头像
    Joan_KellyK
    用GPT-5.5生成财报分析报告,从下载PDF到提取财务指标到生成HTML可视化页面,全流程都能跑通,这个能力真的实用。

  • 头像
    JamesPatelX
    OpenAI内部超过85%员工每周用Codex,这数据有点夸张,说明内部真的在用这个工具。