GLM-5.1
智谱AI发布的旗舰级开源大模型,全球首个实现8小时持续工作能力,编程能力超越Claude Opus 4.6
深度报告
-
GLM-5.1是智谱AI于2026年4月8日发布的旗舰级开源大模型,在软件工程领域实现了国产模型的重大突破。该模型是全球首个通过真实工程任务验证8小时持续工作能力的开源模型,在最接近真实软件开发的SWE-Bench Pro基准测试中取得58.4分,超越GPT-5.4和Claude Opus 4.6,首次登顶全球开源模型榜首。GLM-5.1支持200K超长上下文,具备卓越的自我纠错与长时优化能力,能够在数百至上千轮迭代中持续自主工作,完成从规划、执行到迭代优化的完整闭环。定价方面,0-32K上下文范围的输入价格为0.86美元/百万Tokens,输出价格为3.5美元/百万Tokens,约为竞品的五分之一至七分之一。
-
GLM-5.1由智谱AI(Zhipu AI)自主研发,采用MIT协议开源发布。该模型基于GLM-5的744B MoE架构优化而来,是智谱在2026年发布的第三款模型此前已分别于2025年2月12日发布GLM-5、2025年3月16日发布GLM-5-Turbo。不到三个月内,智谱连续发布三款模型,形成完整的产品的矩阵,中国前十大互联网公司中有九家已接入智谱AI的模型。 从技术发展脉络来看,GLM-5.1的核心突破在于长程任务处理能力。与传统模型以分钟为单位的交互式调用不同,GLM-5.1可以单次任务中持续长时工作,涵盖数百至上千轮迭代。它能够自主完成"实验→分析→调整→再验证"的完整闭环,在关键决策节点反复进行自我校验与路径修正,最终交付工程级成果。 2026年4月8日发布GLM-5.1时,智谱同步宣布Token价格再度上调10%。发布后智谱股价连涨三日,市值突破4000亿港元,反映出市场对其技术能力的认可。业界评价认为"GLM-5.1不只是一个更强的模型,而是一种新的技术范式的开启",标志着AI从"回答问题"向"完成项目"的转变。
-
GLM-5.1作为旗舰级基座模型,具备以下核心功能特性。在思考模式方面,该模型提供多种思考模式,覆盖不同任务需求,用户可根据具体场景选择合适的思考方式。在输出方式上,GLM-5.1支持实时流式响应,能够显著提升用户交互体验,让用户在生成过程中即时看到部分结果。 在工具调用方面,GLM-5.1具备强大的Function Call能力,支持外部工具集成与函数调用,可灵活调用外部MCP工具与数据源,扩展系统能力。在上下文处理方面,该模型支持智能缓存机制,能够优化长对话场景下的性能表现,同时还支持JSON等结构化格式输出,便于后续处理。 从技术参数来看,GLM-5.1的输入模态和输出模态均为文本,上下文窗口达到200K tokens,最大输出Tokens为128K。这些参数使得GLM-5.1能够处理超长文档和复杂的多轮对话场景。 在推荐应用场景方面,GLM-5.1特别擅长Agentic Coding场景,针对Claude Code、OpenClaw等典型场景进行了优化,适合多阶段、强依赖关系的真实工程任务。此外,该模型也适用于通用对话、创意写作、Artifacts/前端开发以及Office生产力等场景,能够完成PPT、Word、PDF、Excel等复杂文档的生产任务。 从基准测试表现来看,GLM-5.1在SWE-Bench Pro基准测试中取得58.4分,刷新全球最佳表现,超越GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro。在Terminal-Bench 2.0和NL2Repo基准测试中,GLM-5.1也进入了全球前三名,并位列开源模型第一。综合能力与Coding能力对齐Claude Opus 4.6,编程能力达到Claude Opus 4.6的94.6%。
-
GLM-5.1的API定价根据上下文长度有所不同。根据302.AI平台的数据,0-32K tokens上下文范围的输入价格为0.86美元/百万Tokens,输出价格为3.5美元/百万Tokens;32K-200K tokens上下文范围的输入价格为1.2美元/百万Tokens,输出价格为4美元/百万Tokens。对于大额采购,用户可以联系客户经理享受专属优惠。 与前代版本GLM-5相比,GLM-5.1的价格有所上涨。GLM-5在0-32K tokens范围的输入价格为0.6美元/百万Tokens,输出价格为2.6美元/百万Tokens。GLM-5.1的涨价幅度约为43%(输入)和35%(输出)。 与竞品对比来看,GLM-5.1的编程场景定价已经直逼Anthropic的Claude Sonnet水平,但综合性价比仍具有显著优势。根据用户评价,GLM-5.1的编程能力达到Claude Opus 4.6的94.6%,而价格仅为竞品的约1/5至1/7,被用户评价为"用30%的钱,达到94%的能力"。 2026年4月8日发布GLM-5.1时,智谱同步宣布Token价格再度上调10%。发布后智谱股价连涨三日,市值突破4000亿港元。这一市场反应显示出投资者对GLM-5.1技术能力的认可和对智谱未来发展的信心。
-
从正面评价来看,用户普遍认为GLM-5.1的编程能力已达到Claude Opus 4.6的第一梯队水平,能够独立完成复杂工程任务。实测案例显示,GLM-5.1在逻辑推理任务中能够完整推导出多种解法,并在关键节点进行自我校验与路径修正。 作为全球首个通过真实工程任务验证8小时持续工作能力的开源模型,GLM-5.1在长时间任务中的表现获得用户肯定。其自我纠错与长时优化能力使其能够持续在数百轮次、上千次工具调用中保持任务目标一致性。 用户反馈显示,GLM-5.1倾向于把东西做完整,主动补齐细节,相较于竞品更擅长项目级任务的整体结构组织与细节补全。在性价比方面,用户评价"用30%的钱,达到94%的能力",GLM-5.1的价格优势明显,对于处理90%的标准任务具有很高的实用价值。 在前端开发测试中,GLM-5.1生成的网页作品集具有完整的交互系统、滚动视差效果、鼠标跟随柔光特效等,整体视觉"克制且自然",获得了较高的评价。 从负面反馈和改进建议来看,部分用户反馈官方渠道存在订阅难抢、使用卡顿与延迟等问题,算力供应未能完全满足用户需求。这导致部分用户转向第三方部署渠道寻求解决方案。 有用户指出GLM-5.1不擅长"做减法",在极限设计感表达方面稍弱,更像执行力强的工程模型而非追求单维度极限。在复杂动画等任务中,GLM-5.1生成的代码量较大,可能带来一定的性能开销。个别用户反映任务复杂时响应速度较慢,但整体能力获得肯定。
-
GLM-5.1的发布在行业内引起了广泛关注,被视为国产大模型发展的重要里程碑。 在开源领域,GLM-5.1是全球开源大模型中编程能力的第一梯队,在权威评测中超越GPT-5.4和Claude Opus 4.6,登顶全球开源榜首,被业界称为开源界的"Claude Opus"。这是国产大模型在软件工程领域的里程碑式突破,首次在核心工程指标上达到国际顶尖闭源模型水平。 业界评价认为,GLM-5.1不只是一个更强的模型,而是一种新的技术范式的开启,标志着AI从"回答问题"向"完成项目"的转变。 从市场反响来看,不到三个月内,中国前十大互联网公司中有九家争相接入智谱AI的模型,形成了行业内的广泛认可。大量企业在社交媒体、官网官宣"已接入",涵盖互联网公司、云服务商、软件厂商、芯片企业,大中小皆有。 发布GLM-5.1并宣布提价后,智谱股价连涨三日,市值突破4000亿港元,反映出投资者对技术能力的认可。GLM-5.1的成功发布推动中国大模型从"追赶"阶段进入"攻坚"阶段,行业竞争格局发生变化。 在竞争格局方面,GLM-5.1的主要竞争对手包括Anthropic的Claude系列、OpenAI的GPT系列以及月之暗面的Kimi系列。2026年4月,Kimi K2.6和GLM-5.1相继发布,都强调长周期编码和Agent能力,但技术路线截然不同。GLM-5.1更注重工程交付能力,而Kimi K2.6在多模态理解方面各有侧重。
-
从用户反馈来看,GLM-5.1目前主要的争议集中在算力供应方面。部分用户反馈官方渠道存在订阅难抢、使用卡顿与延迟等问题,算力供应紧张是目前存在的主要问题。这反映出智谱在算力基础设施方面还需要进一步加大投入,以满足快速增长的用户需求。 从技术层面来看,有用户指出GLM-5.1更偏向工程型模型,不擅长"做减法",在极限设计感表达方面稍弱。这意味着GLM-5.1更适合需要完整交付的项目级任务,而非追求单点极致表现的场景。 此外,GLM-5.1在发布后不久即宣布提价,虽然市场反应积极,但也引发了一些用户对成本控制的担忧。对于需要大规模使用GLM-5.1的企业用户来说,API成本的上涨需要纳入整体预算考虑。
-
GLM-5.1特别适合以下用户群体:复杂编程任务的用户,特别是需要多阶段、强依赖关系的真实工程任务;需要长时间软件工程交付的用户,可持续工作8小时完成完整项目交付;需要持续迭代优化的项目,具备自我校验与路径修正能力;成本敏感型项目,用户评价显示其价格仅为竞品的1/5至1/7。 对于以下场景,GLM-5.1可能不是最佳选择:单维度极致表现追求的场景,更偏向工程型模型;极限设计感场景,不擅长"做减法",表达稍弱。 从替代方案来看,如果用户需要处理最难的10%任务,可能仍需要使用Claude Opus 4.6或GPT-5.4等前沿模型;但对于其余90%的标准任务,GLM-5.1具有很高的实用价值。
-
GLM-5.1是智谱AI推出的旗舰级开源大模型,在软件工程领域实现了重大技术突破。其核心优势包括:8小时级长程任务处理能力、SWE-Bench Pro全球开源第一的编程能力、200K超长上下文支持,以及相较于国际顶尖闭源模型显著的价格优势。 作为全球首个通过真实工程任务验证8小时持续工作能力的开源模型,GLM-5.1重新定义了AI从"回答问题"到"完成项目"的转变。其自我纠错与长时优化能力使其能够持续在数百轮次、上千次工具调用中保持任务目标一致性,交付工程级成果。 从市场表现来看,不到三个月内中国前十大互联网公司中有九家接入,以及4000亿港元的市值突破,都证明了GLM-5.1的技术实力获得了行业认可。展望未来,GLM-5.1的成功发布标志着中国大模型从"追赶"阶段进入"攻坚"阶段,国产大模型在全球AI竞争中的地位将进一步提升。
用户评论
-
Abigail_Turner_99—真香!用它做了个后台管理系统,从数据库设计到接口实现全程自动,跑通了!之前用其他模型经常卡壳,这个8小时连续工作不是吹的,确实稳。 -
邹玉—用了两周GLM-5.1写后端代码,性价比真的没话说!日常CRUD和小功能开发完全够用,比Claude便宜太多了,终于可以放开膀子写代码了! -
Judith.Myers_2023—强烈推荐给预算有限的团队!用它替代Claude处理日常需求,一个月上千的订阅费直接砍掉大半,省下来的钱可以买点别的工具。 -
PWard_Max—说实话有点超出预期。本来以为国产模型就那样,结果GLM-5.1的长程任务能力真不错,测试用例自己就能写完整,还知道回头校验错误。 -
VYW9X1F—吐槽一下高峰期涨价的问题!下午三四点那会儿消耗额度直接翻三倍,用起来心疼。建议错峰使用,早上九点前或者晚上十点后性价比最高。 -
C_Lree—刚用GLM-5.1重构了一个半废弃的Vue项目,整体体验还行。不过复杂动画场景还是要手调,生成的代码量有点大,性能开销需要优化。 -
Theresa_CookK—国产之光名不虚传!用它做了个数据可视化大屏,从图表选型到交互逻辑全程AI辅助,最后交付的东西客户还挺满意的。 -
ARussell520—响应速度确实比Claude慢,但胜在便宜啊!用它处理90%的标准任务完全没问题,那10%的复杂场景再用Claude兜底,这样搭配最划算。 -
r2ke2u1wtp—前端调试起来稍微有点头疼,CSS样式纠缠不清的情况还是有的。不过后端代码质量挺高,接口设计和异常处理都比较到位。 -
PamelaScott—用GLM-5.1开发了一个小工具箱,涵盖七八个实用功能,累计跑了四十多个小时。中间偶发卡顿,但整体稳定性能接受。 -
ADtur—客观说,复杂多文件重构和架构设计还是Claude强一些。但日常开发用它足够了,省钱才是硬道理啊! -
潘悦勇—长上下文处理确实强,10万行代码库丢进去分析,它还记得前面说过的约束,不会突然失忆。这个能力对大型项目帮助很大。 -
TGomez_9915—订阅确实难抢,每次放号都要蹲点。希望智谱能扩大算力供应,需求太大了根本不够用。 -
Natalie.Hicks168—用它写了几个Python脚本,处理Excel和数据清洗太方便了!批量操作和格式转换都能自动完成,省了不少重复劳动。 -
苏月洋—说实话,界面可以再简洁一些。不过功能是真的全,用起来还挺顺手的。 -
orangecat977—配合Claude Code使用效果更佳!用它规划任务和生成代码框架,Claude负责最终优化和调试,分工明确效率翻倍。 -
NicholasGutierrez_X—生成代码的速度挺快的,就是等待的时候有点煎熬。建议智谱优化一下流式输出的体验。 -
iJoséLozano—用了大概一个月,感觉进步很明显。之前GLM-5的一些问题都修复了,死循环的情况基本没再遇到过。 -
Shirley.Moore007—用它做了个项目管理系统,包含用户、订单、权限等模块。从数据库设计到前端页面全程AI辅助,两天就交付了MVP版本。 -
0ibznp—作为一个天天写代码的人,GLM-5.1已经成为我的主力工具了。便宜好用不心疼额度,日均API消耗只有Claude的四分之一。 -
GeraldBailey007047—用它处理一些中译英的技术文档,整体质量还不错。专业术语翻译准确,行文流畅度可以接受。 -
Kyle_Mendoza—有点小失望的是API限流太严格了,跑稍微大一点的任务就容易触发限制。希望能放宽一些限制,或者提供更多额度的套餐选择。 -
Ashley_ScottJr—用它做了个小程序后端,数据结构和接口设计都很规范。代码可读性很高,接手项目的同事都说好维护。 -
DeniseColeman_20219—国产大模型确实进步神速!半年时间从追赶者变成并跑者,GLM-5.1的表现让很多人对国产AI刮目相看。 -
KaylaHolt—性价比之王不是吹的!同样的预算之前只能用Claude处理简单任务,现在用GLM-5.1可以放开跑复杂项目了。 -
ul1xsvrnzw—稍微吐槽一下,中文技术文档的处理能力感觉比英文稍弱,某些专业领域的理解还需要加强。 -
David_Russell_66—团队都在用GLM-5.1,协作效率提升明显。统一用这个模型后,代码风格一致性好了很多。 -
realSallyBowman_dev—用它做了个用户画像分析系统,从数据采集到可视化展示全程AI辅助。上线后同事反馈挺好用的。 -
WElin_dev—说实话一开始没抱太大期望,结果实际用起来还挺惊喜的。长任务处理能力强,不用来回纠正上下文。 -
WSanchez_66485—强烈推荐给独立开发者!用它处理日常需求完全够用,省下的预算可以租更好的服务器。