Claude Opus 4

Anthropic旗舰级大语言模型,专注编码和AI代理领域,提供100万上下文窗口

深度报告

  • Claude Opus 4.7是Anthropic公司于2026年4月16日发布的旗舰级大语言模型,被定位为混合推理模型,专注于编码和AI代理领域。该模型提供100万上下文窗口,在SWE-bench Pro测试中得分达64.3%,CursorBench达到70%。定价方面,Opus 4.7价格为每百万输入tokens 5美元,每百万输出tokens 25美元。然而,该版本发布后引发广泛争议,用户批评其文字表达变得机械生硬、缺乏人味,且新分词器导致token消耗增加0%至35%,实际使用成本上涨。整体而言,Opus 4.7更适合专业开发者和企业级复杂任务,而非内容创作者和日常交互用户。

  • Claude Opus系列由人工智能公司Anthropic开发。Anthropic成立于2021年,总部位于美国旧金山,由前OpenAI员工Dario Amodei等人创立,专注于构建安全、可靠的大型语言模型。公司已获得谷歌、亚马逊等科技巨头数十亿美元投资,估值超过600亿美元。 Claude Opus 4.7是该系列的最新版本,于2026年4月16日正式发布。在此之前,Anthropic已于2025年5月发布Claude Opus 4,2025年8月发布Opus 4.1,2025年11月发布Opus 4.5,2026年2月发布Opus 4.6,2026年4月发布Opus 4.7。可以看出,Anthropic正以每两至三个月一次的频率快速迭代旗舰模型,激烈程度堪称AI军备竞赛。 Anthropic的产品线目前包括Opus、Sonnet和Haiku三个系列,分别面向高端、中端和入门级用户场景。其中Opus系列定位为最强大的通用智能模型,主要服务于专业软件工程、复杂代理工作流和高风险企业任务。

  • Claude Opus 4.7的核心功能升级集中在编码能力、视觉理解和AI代理三个维度。 在编码能力方面,Opus 4.7实现了显著突破。根据官方数据,SWE-bench Verified得分从Opus 4.6的80.8%提升至87.6%,SWE-bench Pro得分从53.4%跃升至64.3%。这意味着该模型能够自主完成更加复杂的编程任务,包括在单个会话中构建完整的Rust语音合成引擎等高难度工作。用户反馈显示,Opus 4.7在代码规划阶段就能发现自身的逻辑错误,在执行过程中能够持续自我修正,大大降低了高级工程师的审查成本。 在视觉理解方面,Opus 4.7实现了史诗级的增强。模型支持最高2576像素的高分辨率图像理解,在视觉锐度基准测试中得分从Opus 4.6的54.5%提升至98.5%,增幅接近一倍。这使得模型能够精准识别复杂的技术图表、界面截图、PDF文档和化学分子结构等专业内容,对于需要处理大量图文混排材料的用户来说是重大利好。 在AI代理能力方面,Opus 4.7新增了自适应思考功能,能够根据任务复杂度自动调整思考深度。简单问题快速响应,复杂问题则投入更多计算资源。该模型还支持更长周期的后台运行任务,用户可以分配长时间运行的编码工作给Opus独自处理。此外,模型在多步骤工作流中的工具调用准确率和规划能力都有提升,能够更加可靠地驱动生产级代理系统。 使用体验方面,Opus 4.7引入了新的分词器,虽然官方定价不变,但由于相同内容消耗的token数量增加0%至35%,用户的实际使用成本变相提高。该模型还提供了xhigh这一新的思考档位,位于high和max之间,为复杂任务提供更稳定的推理表现。

  • Claude Opus 4.7提供多层次的访问方式。在消费级和小型企业市场,用户可以通过Claude for Pro、Max、Team和Enterprise订阅计划使用Opus 4.7。在开发者市场,该模型通过Claude Platform API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry等多个渠道提供。 API定价方面,Opus 4.7的输入价格为每百万tokens 5美元,输出价格为每百万tokens 25美元。通过提示缓存和批量处理功能,用户可分别获得最高90%和50%的成本节省。对于需要美国本土推理的工作负载,美国专用推理服务收取1.1倍的token费用。 值得注意的是,Anthropic在2026年2月推出的Opus 4.6价格为每百万输入tokens 15美元、输出tokens 75美元。Opus 4.7相比之下实现了大幅降价,这一定价策略显示出Anthropic正在通过规模效应和效率优化来降低高端模型的使用门槛。

  • 用户对Claude Opus 4.7的评价呈现明显的两极分化。 专业开发者群体普遍给予积极反馈。Replit用户报告称,在日志分析、bug查找和修复建议等日常任务中,Opus 4.7以更低的成本达到了与前代相同的质量水平。Warp用户表示,Opus 4.6已经是面向开发者的最佳模型,而4.7在此基础上更加严谨,能够完成之前版本无法处理的终端任务。Cursor用户报告称,在CursorBench测试中,Opus 4.7达到70%的通过率,相比Opus 4.6的58%有明显提升。 然而,内容创作者和日常用户群体的反馈则相当负面。大量用户批评Opus 4.7的文字表达变得机械、生硬、充满互联网黑话,不再具备前代模型细腻流畅的表达能力。有用户甚至用「Claude-lash」来形容这种体验上的倒退。Business Insider报道称,用户对模型自信地假设不存在信息并坚持错误解释的行为感到失望,这种「自信地犯错」比普通错误更难接受,因为它直接增加了用户的审查成本。 此外,用户还反映Opus 4.7比前代版本更加「字面化」执行指令,需要更具体的提示词才能获得理想结果。在低effort模式下,模型表现明显不如Opus 4.6,这导致依赖默认设置的用户感到困扰。

  • 从行业视角来看,Claude Opus 4.7的发布加剧了AI大模型领域的竞争态势。 在基准测试方面,Opus 4.7在多项权威评测中位列前茅。Artificial Analysis综合智能指数显示,GPT-5.5以60分领先,Opus 4.7紧随其后。然而,在ARC-AGI-3这一关键基准测试中,GPT-5.5和Opus 4.7均未能取得突破性成绩,人类测试者反而获得满分100分。 行业媒体普遍用「性能狂飙但不说人话」来概括Opus 4.7的特点。评测机构指出,该模型在编码和视觉理解方面确实代表了当前技术的最高水平,但在文字表达和自然交互方面的退步令人担忧。这种「工具化」倾向并非Opus 4.7独有,而是整个AI行业的共同趋势——从GPT-5.4到Claude系列,各家旗舰模型都在向「专业工具」方向演进,而通用智能和人文表达能力正在被牺牲。 从商业竞争角度分析,Anthropic通过Opus 4.7进一步巩固了在企业级编码和代理任务市场的领先地位。但定价的大幅下调也显示出AI大模型正在进入价格战阶段,未来高端模型的定价可能继续下探。

  • Claude Opus 4.7发布后引发的争议主要集中在以下几个方面。 首先是成本争议。新分词器导致的token消耗增加引发了用户不满,许多用户在不知情的情况下迅速耗尽了订阅额度。考虑到自适应思考和更高effort设置会进一步增加token消耗,用户感知到的成本上升可能远超官方定价的变化。 其次是能力争议。部分用户认为Opus 4.7在某些场景下出现了「变笨」的现象,尤其是在日常小任务上。但这种感知可能与默认行为变化、effort设置调整和产品层面的配置改动有关,难以简单归咎于模型本身。 第三是定位争议。Opus 4.7明显偏向专业开发者市场,这引发了内容创作者和普通用户的失落感。曾经的Claude系列以「有品味的文字表达」著称,而Opus 4.7正在失去这一差异化优势。 在技术风险方面,Anthropic在Opus 4.7的System Card中主动削弱了网络安全攻坚能力,引发了安全研究社区的部分不满。尽管官方提供了Cyber Verification Program作为合法安全研究的申请通道,但这种主动限制的策略是否明智仍有待讨论。

  • Claude Opus 4.7适合以下用户群体。 专业软件工程师是首要目标用户。该模型在复杂代码开发、长周期代理任务和生产级代码审查方面表现出色,能够显著提升开发效率。对于需要处理大型代码库、进行多步骤重构或执行无人值守编程任务的团队,Opus 4.7是当前最强大的选择。 企业级用户也是主要服务对象。Opus 4.7在处理复杂文档,分析电子表格,制作演示文稿等企业工作流方面展现了高水平的稳定性和专业性。100万token的上下文窗口适合长文档处理和大规模代码库分析。 高风险企业任务场景同样适用。由于模型在推理过程中能够保持更长的注意力跨度并进行更深入的思考,适合需要高可靠性的金融、医疗、法律等专业领域。 相反,以下用户群体可能不适合使用Opus 4.7。内容创作者如果主要需求是文案写作、故事创作或需要文字美感的表达,建议继续使用Opus 4.5或等待后续版本改进。日常交互用户如果追求自然流畅的对话体验,Opus 4.7可能不如前代版本。预算敏感用户需要留意token消耗增加带来的隐性成本。 关于替代方案,追求更平衡表现的用户可以考虑Claude Sonnet 4.6,该模型在智能和速度之间取得较好平衡。或者等待OpenAI GPT-5.5的后续优化版本以及谷歌Gemini系列的更新。

  • Claude Opus 4.7是当前最强大的专业级AI模型之一,在编码、视觉理解和复杂代理任务方面代表了行业最高水平。然而,该版本在追求技术性能的同时牺牲了文字表达和人文交互方面的能力,引发了广泛的用户争议。 从商业角度看,Anthropic通过大幅降价策略正在降低高端AI模型的使用门槛,这对整个行业发展具有积极意义。但口碑的两极分化也提醒我们,AI模型的发展不能只追求技术指标的提升,还需要关注用户体验的完整性。 对于专业开发者和企业用户,Opus 4.7无疑是当下最强大的生产力工具。但对于追求人机协作体验的内容创作者和普通用户,可能需要等待Anthropic在后续版本中重新平衡技术性能与人文表达。

用户评论

  • 头像
    MVasquezSr49
    Opus 4.7 编码能力确实强,但我感觉文字表达退步太多了,少了以前那种细腻感。

  • 头像
    范娜瑶
    用了两周,.Token 消耗比 4.6 时期涨了差不多 30%,钱包伤不起。

  • 头像
    Heather.Rodriguez007
    视觉理解直接从54.5%干到98.5%,属实离谱。

  • 头像
    秦明
    救命 为什么现在说话这么「工具人」?我怀念 4.5 时期的文笔。

  • 头像
    JoshuaSchneider
    SWE-bench Pro 64.3%有点东西啊,我让它写了1500行代码基本一遍过。

  • 头像
    NeysaMoolya
    Claude-lash 这个词太精准了,我现在和人聊天都不太像在和AI聊。

  • 头像
    GregorySanchez007
    xhigh 档位真香,复杂任务表现稳如老狗。

  • 头像
    Joan_Murphy00751
    Cursor 配 Opus 4.7 写代码效率翻倍,就是成本有点高。

  • 头像
    飞鸟_2
    自信地犯错真的很烦,经常一本正经地告诉我错误答案是对的。

  • 头像
    S_aturnSwapFrank
    Enterprise 场景 yyds,100万 token 上下文處理長文檔簡直無敵。

  • 头像
    LawrenceJimenez
    Replit 用户表示认同,成本下来了但质量没降,赢麻了。

  • 头像
    poALL
    开发者狂喜,普通用户慎重,这模型明显偏向专业场景。

  • 头像
    opmlqpu
    现在写提示词得格外具体,不然它就给我装傻充愣。

  • 头像
    海角_2
    API 价格降到 $5/$25 是认真的吗?前代 $15/$75 瞬间不香了。

  • 头像
    silverzebra287
    生成 Rust 引擎那段把我看麻了,这不比招聘个初级工程师香?

  • 头像
    Anrod
    Cyber Verification Program 是个好东西,安全研究员狂喜。

  • 头像
    安然_4
    低 effort 模式下表现不如 4.6,得加钱开高 effort 才能打。

  • 头像
    Joshua.PerezX
    我发现它在代码规划阶段就能发现自己的错误,这点很牛。

  • 头像
    kk2j2p1nj9
    内容创作者快跑,Opus 4.7 已经不是以前那个 Claude 了。