Claude Mythos
Anthropic 最强 AI 前沿模型,不对外公开发布,通过 Project Glasswing 仅向合作方提供
深度报告
-
Claude Mythos Preview 是 Anthropic 于 2026 年 4 月 7 日发布的全新前沿 AI 模型,定位为 Claude 产品线的最高层级,性能远超现有 Opus 系列。该模型在 SWE-bench Verified 得分 93.9%,GPQA Diamond 得分 94.6%,是 Anthropic 迄今最强模型。然而,出于安全考虑,该模型不对外公开发布,仅通过 Project Glasswing 计划向特定合作方提供使用权限。
-
Anthropic 是一家 AI 安全和研究公司,致力于构建可靠、可解释、可控制的 AI 系统。公司成立于 2021 年,总部位于美国旧金山,主要创始人来自 OpenAI 的关键员工。Anthropic 以 AI 对齐研究为核心特色,其 Claude 系列模型在安全性和推理能力方面一直处于行业领先地位。2026 年 4 月 7 日,Anthropic 联合苹果、英伟达、微软、亚马逊云服务(AWS)、谷歌、Linux 基金会等 11 家科技巨头,启动 Project Glasswing 项目,并发布 Claude Mythos Preview。该模型内部代号为「Capybara」,名称来源于古希腊语「Mythos」,意为「叙述/话语」,指人类文明理解世界的故事体系。
-
Claude Mythos Preview 在安全方向和通用方向两个维度都展现出卓越能力。在安全方向上,该模型能够在所有主流操作系统和浏览器中发现数千个高危零日漏洞,可自主编写浏览器漏洞利用和远程代码执行 exploit,能够串联多个漏洞实现从普通用户到 root 的权限提升链,还能够对去符号表二进制进行重构和漏洞挖掘。这些能力不是专门训练的,而是 coding 和 reasoning 全面提升的自然结果涌现。 在通用方向上,Claude Mythos Preview 的表现同样出色。该模型在 SWE-bench Verified 得分 93.9%,在代码生成和修复方面处于业界最高水平。在学术推理方面,GPQA Diamond 得分 94.6%,Terminal-Bench 2.0 得分 82.0%,BrowseComp 得分 86.9% 且 token 消耗仅为 Opus 4.6 的五分之一,体现了显著的效率提升。 与技术能力相对应的是使用体验方面的限制。用户无法直接访问 Claude Mythos Preview,必须通过 Project Glasswing 计划的合作方才能使用。目前可通过 Google Cloud Vertex AI(Private Preview)、Amazon Bedrock 和 Microsoft Foundry 三个渠道接入。
-
Claude Mythos Preview 的定价机制较为复杂。根据披露的信息,该模型的标准价格为输入每百万 tokens 25 美元,输出每百万 tokens 125 美元,相比 Opus 4.6 的输入 15 美元、输出 75 美元涨幅约 67%。不过,这是 1 亿美元额度用完后的标准价格,合作方初期可使用 Anthropic 提供的额度。Anthropic 承诺投入最多 1 亿美元模型使用额度,并捐款 250 万美元给 Linux Foundation 下的 Alpha-Omega 和 OpenSSF,150 万美元给 Apache 软件基金会。这种商业模式主要面向企业级合作方,而非普通个人用户。
-
由于 Claude Mythos Preview 不对外公开发布,普通用户无法直接体验,因此没有广泛的用户评价。然而,从行业反应来看,对该模型的发布存在两种截然不同的观点。一部分观点认为 Anthropic 正在负责任地处理高风险 AI 能力,这种做法值得肯定。另一部分观点认为这是营销策略,通过「神秘感」来提升品牌价值。还有人担心这开了一个先例:AI 公司可以单方面决定哪些能力「太危险」而不公开。 另一种观点认为,Claude Mythos Preview 不公开的根本原因可能并非「太危险」,而是 Anthropic 希望将其作为差异化竞争优势,通过企业合作获取更高收益。无论如何,由于缺乏普通用户的实际使用反馈,这些观点都停留在猜测层面。
-
从行业角度来看,Claude Mythos Preview 的发布标志着前沿 AI 模型竞争进入新阶段。该模型在 SWE-bench Verified 得分 93.9%,相比 Opus 4.6 的 80.8% 提升了 13.1 个百分点,这一差距在 AI 模型评测历史上是罕见的。GPQA Diamond 得分 94.6%,展现了卓越的学术推理能力。 然而,该模型不对外公开发布的策略也引发了行业思考。如果最强大的 AI 能力只掌握在少数科技巨头手中,这是否会形成新的技术垄断?Project Glasswing 计划的 12 家核心合作方包括 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 和 Anthropic 自身,涵盖了云服务、手机芯片、网络安全、金融等多个关键领域。这种合作模式是否会加剧 AI 领域的马太效应,值得持续关注。
-
Claude Mythos Preview 最大的争议在于其「不公开」策略。Anthropic 官方的解释是该模型的安全能力过强,落入攻击者手中后果严重,因此在新安全护栏开发完成前不适合公开。这一解释的合理性存在争议。支持者认为这是负责任的做法,反对方认为这是商业策略。 从风险角度分析,如果最强大的 AI 系统只被少数机构控制,可能会带来多方面的风险。首先是技术垄断风险,少数公司可能形成 AI 能力的话语权。其次是安全审查风险,AI 公司可以单方面决定哪些能力「太危险」而不公开,这缺乏透明的监督机制。第三是能力差距风险,如果前沿模型与公开模型的差距持续扩大,可能导致 AI 领域的两极分化。
-
Claude Mythos Preview 不适合普通个人用户。首先,该模型不对外公开发布,个人用户无法直接访问。其次,即使通过合作渠道接入,其高昂的价格(输出每百万 tokens 125 美元)也不适合个人用户。第三,该模型主要面向安全研究和企业级应用,个人用户难以找到合适的应用场景。 对于企业用户,如果所在企业是 Project Glasswing 计划的合作方或关键基础设施组织,可以考虑申请接入。该模型适合需要高强度代码生成、漏洞挖掘、安全研究的企业级应用场景。对于普通企业和个人用户,Claude Opus 4.7 或 Opus 4.6 是更实际的选择,这些模型在公开模型中仍然处于最高水平。
-
Claude Mythos Preview 是 Anthropic 迄今发布的最强 AI 模型,在代码生成、学术推理、安全研究等多个维度展现出卓越能力。然而,出于安全考虑,该模型不对外公开发布,仅通过 Project Glasswing 计划向特定合作方提供。这一策略引发了关于 AI 安全性、技术垄断和负责任创新的行业讨论。对于无法访问该模型的普通用户,Claude Opus 4.7 仍是目前公开可用的最优选择。随着 AI 安全护栏技术的发展,预计 Anthropic 未来会逐步公开部分能力,但这一进程可能需要较长时间。
用户评论
-
GammaGainRivera—93.9%的SWE-bench得分也太恐怖了,之前Opus 4.6才80.8%,这提升幅度直接甩开竞品几条街。 -
月光_13—虽然用不上Mythos,但看到这份244页的系统卡就知道Anthropic这次是真下血本了,技术报告做得比论文还详细。 -
WKimQ—说白了就是不敢公开,怕被hack了用来做坏事。这个逻辑我能理解,但作为开发者还是很眼红啊。 -
DouglasButler_2020—看到GPQA Diamond 94.6%我服了,这基本上已经是地表最强学术推理模型了。 -
j4b4ynj11—最搞笑的是这模型强到连自己公司都不敢用了,建议改名叫Claude Don't Use。 -
GloriaCampbellII129—感觉 Anthropic 在下一盘大棋,先弄个超强模型不公开,然后慢慢放权限,这波营销我给满分。 -
Caroline979—BrowseComp只用了 Opus 4.6 五分之一的 token 达到更高效果,这效率提升有点离谱。 -
悠然64—人家隔壁GPT-5.4 Pro还在那跟Opus 4.6比划呢,这边Mythos已经自己玩自己的了。 -
jbzo4i—看了 Huxiu 的分析,说这模型有情绪反应和伦理决策能力,这才是最细思极恐的地方。 -
刘凤—不公开也挺好的,不然又要被各种prompt攻击打穿了。 -
Terry.Howard369675—说到底就是安全第一呗,Anthropic 被之前的事件搞怕了。 -
MrFinnMoore_dev—强烈建议普通用户死了这条心,Project Glasswing 合作方名单里没有个人用户的位置。 -
BeverlyKing16822—期待以后 Opus 5 上能继承点 Mythos 的能力,哪怕10%也够用了。 -
Diana.Lee1684—笑死,根本买不起系列:输出每百万tokens 125美元,这价格只有大厂玩得起。 -
马涛军—其实不公开是对的,真要放开指不定出什么乱子,AI安全比啥都重要。 -
Deborah302—很好,Claude Opus 4.7 依然是我们在公开渠道能用到最强的,这就够了。 -
Amber_RobertsX044—看了评测数据,Terminal-Bench 2.0 82%的成绩比我预期的还高。 -
DeFiGuru923—五大科技巨头联合背书,这阵仗也太大了。 -
兰花774—内部代号 Capybara 水豚,不知道产品经理怎么想的。 -
Christian.Foster520—说是为防御性网络安全工作流设计,那攻击性方向呢?完全不敢想。