GLM-5.1

智谱AI发布的旗舰级开源大模型，全球首个实现8小时持续工作能力，编程能力超越Claude Opus 4.6

大语言模型

https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

前往官网

深度报告

GLM-5.1是智谱AI于2026年4月8日发布的旗舰级开源大模型，在软件工程领域实现了国产模型的重大突破。该模型是全球首个通过真实工程任务验证8小时持续工作能力的开源模型，在最接近真实软件开发的SWE-Bench Pro基准测试中取得58.4分，超越GPT-5.4和Claude Opus 4.6，首次登顶全球开源模型榜首。GLM-5.1支持200K超长上下文，具备卓越的自我纠错与长时优化能力，能够在数百至上千轮迭代中持续自主工作，完成从规划、执行到迭代优化的完整闭环。定价方面，0-32K上下文范围的输入价格为0.86美元/百万Tokens，输出价格为3.5美元/百万Tokens，约为竞品的五分之一至七分之一。
GLM-5.1由智谱AI（Zhipu AI）自主研发，采用MIT协议开源发布。该模型基于GLM-5的744B MoE架构优化而来，是智谱在2026年发布的第三款模型此前已分别于2025年2月12日发布GLM-5、2025年3月16日发布GLM-5-Turbo。不到三个月内，智谱连续发布三款模型，形成完整的产品的矩阵，中国前十大互联网公司中有九家已接入智谱AI的模型。从技术发展脉络来看，GLM-5.1的核心突破在于长程任务处理能力。与传统模型以分钟为单位的交互式调用不同，GLM-5.1可以单次任务中持续长时工作，涵盖数百至上千轮迭代。它能够自主完成"实验→分析→调整→再验证"的完整闭环，在关键决策节点反复进行自我校验与路径修正，最终交付工程级成果。 2026年4月8日发布GLM-5.1时，智谱同步宣布Token价格再度上调10%。发布后智谱股价连涨三日，市值突破4000亿港元，反映出市场对其技术能力的认可。业界评价认为"GLM-5.1不只是一个更强的模型，而是一种新的技术范式的开启"，标志着AI从"回答问题"向"完成项目"的转变。
GLM-5.1作为旗舰级基座模型，具备以下核心功能特性。在思考模式方面，该模型提供多种思考模式，覆盖不同任务需求，用户可根据具体场景选择合适的思考方式。在输出方式上，GLM-5.1支持实时流式响应，能够显著提升用户交互体验，让用户在生成过程中即时看到部分结果。在工具调用方面，GLM-5.1具备强大的Function Call能力，支持外部工具集成与函数调用，可灵活调用外部MCP工具与数据源，扩展系统能力。在上下文处理方面，该模型支持智能缓存机制，能够优化长对话场景下的性能表现，同时还支持JSON等结构化格式输出，便于后续处理。从技术参数来看，GLM-5.1的输入模态和输出模态均为文本，上下文窗口达到200K tokens，最大输出Tokens为128K。这些参数使得GLM-5.1能够处理超长文档和复杂的多轮对话场景。在推荐应用场景方面，GLM-5.1特别擅长Agentic Coding场景，针对Claude Code、OpenClaw等典型场景进行了优化，适合多阶段、强依赖关系的真实工程任务。此外，该模型也适用于通用对话、创意写作、Artifacts/前端开发以及Office生产力等场景，能够完成PPT、Word、PDF、Excel等复杂文档的生产任务。从基准测试表现来看，GLM-5.1在SWE-Bench Pro基准测试中取得58.4分，刷新全球最佳表现，超越GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro。在Terminal-Bench 2.0和NL2Repo基准测试中，GLM-5.1也进入了全球前三名，并位列开源模型第一。综合能力与Coding能力对齐Claude Opus 4.6，编程能力达到Claude Opus 4.6的94.6%。
GLM-5.1的API定价根据上下文长度有所不同。根据302.AI平台的数据，0-32K tokens上下文范围的输入价格为0.86美元/百万Tokens，输出价格为3.5美元/百万Tokens；32K-200K tokens上下文范围的输入价格为1.2美元/百万Tokens，输出价格为4美元/百万Tokens。对于大额采购，用户可以联系客户经理享受专属优惠。与前代版本GLM-5相比，GLM-5.1的价格有所上涨。GLM-5在0-32K tokens范围的输入价格为0.6美元/百万Tokens，输出价格为2.6美元/百万Tokens。GLM-5.1的涨价幅度约为43%（输入）和35%（输出）。与竞品对比来看，GLM-5.1的编程场景定价已经直逼Anthropic的Claude Sonnet水平，但综合性价比仍具有显著优势。根据用户评价，GLM-5.1的编程能力达到Claude Opus 4.6的94.6%，而价格仅为竞品的约1/5至1/7，被用户评价为"用30%的钱，达到94%的能力"。 2026年4月8日发布GLM-5.1时，智谱同步宣布Token价格再度上调10%。发布后智谱股价连涨三日，市值突破4000亿港元。这一市场反应显示出投资者对GLM-5.1技术能力的认可和对智谱未来发展的信心。
从正面评价来看，用户普遍认为GLM-5.1的编程能力已达到Claude Opus 4.6的第一梯队水平，能够独立完成复杂工程任务。实测案例显示，GLM-5.1在逻辑推理任务中能够完整推导出多种解法，并在关键节点进行自我校验与路径修正。作为全球首个通过真实工程任务验证8小时持续工作能力的开源模型，GLM-5.1在长时间任务中的表现获得用户肯定。其自我纠错与长时优化能力使其能够持续在数百轮次、上千次工具调用中保持任务目标一致性。用户反馈显示，GLM-5.1倾向于把东西做完整，主动补齐细节，相较于竞品更擅长项目级任务的整体结构组织与细节补全。在性价比方面，用户评价"用30%的钱，达到94%的能力"，GLM-5.1的价格优势明显，对于处理90%的标准任务具有很高的实用价值。在前端开发测试中，GLM-5.1生成的网页作品集具有完整的交互系统、滚动视差效果、鼠标跟随柔光特效等，整体视觉"克制且自然"，获得了较高的评价。从负面反馈和改进建议来看，部分用户反馈官方渠道存在订阅难抢、使用卡顿与延迟等问题，算力供应未能完全满足用户需求。这导致部分用户转向第三方部署渠道寻求解决方案。有用户指出GLM-5.1不擅长"做减法"，在极限设计感表达方面稍弱，更像执行力强的工程模型而非追求单维度极限。在复杂动画等任务中，GLM-5.1生成的代码量较大，可能带来一定的性能开销。个别用户反映任务复杂时响应速度较慢，但整体能力获得肯定。
GLM-5.1的发布在行业内引起了广泛关注，被视为国产大模型发展的重要里程碑。在开源领域，GLM-5.1是全球开源大模型中编程能力的第一梯队，在权威评测中超越GPT-5.4和Claude Opus 4.6，登顶全球开源榜首，被业界称为开源界的"Claude Opus"。这是国产大模型在软件工程领域的里程碑式突破，首次在核心工程指标上达到国际顶尖闭源模型水平。业界评价认为，GLM-5.1不只是一个更强的模型，而是一种新的技术范式的开启，标志着AI从"回答问题"向"完成项目"的转变。从市场反响来看，不到三个月内，中国前十大互联网公司中有九家争相接入智谱AI的模型，形成了行业内的广泛认可。大量企业在社交媒体、官网官宣"已接入"，涵盖互联网公司、云服务商、软件厂商、芯片企业，大中小皆有。发布GLM-5.1并宣布提价后，智谱股价连涨三日，市值突破4000亿港元，反映出投资者对技术能力的认可。GLM-5.1的成功发布推动中国大模型从"追赶"阶段进入"攻坚"阶段，行业竞争格局发生变化。在竞争格局方面，GLM-5.1的主要竞争对手包括Anthropic的Claude系列、OpenAI的GPT系列以及月之暗面的Kimi系列。2026年4月，Kimi K2.6和GLM-5.1相继发布，都强调长周期编码和Agent能力，但技术路线截然不同。GLM-5.1更注重工程交付能力，而Kimi K2.6在多模态理解方面各有侧重。
从用户反馈来看，GLM-5.1目前主要的争议集中在算力供应方面。部分用户反馈官方渠道存在订阅难抢、使用卡顿与延迟等问题，算力供应紧张是目前存在的主要问题。这反映出智谱在算力基础设施方面还需要进一步加大投入，以满足快速增长的用户需求。从技术层面来看，有用户指出GLM-5.1更偏向工程型模型，不擅长"做减法"，在极限设计感表达方面稍弱。这意味着GLM-5.1更适合需要完整交付的项目级任务，而非追求单点极致表现的场景。此外，GLM-5.1在发布后不久即宣布提价，虽然市场反应积极，但也引发了一些用户对成本控制的担忧。对于需要大规模使用GLM-5.1的企业用户来说，API成本的上涨需要纳入整体预算考虑。
GLM-5.1特别适合以下用户群体：复杂编程任务的用户，特别是需要多阶段、强依赖关系的真实工程任务；需要长时间软件工程交付的用户，可持续工作8小时完成完整项目交付；需要持续迭代优化的项目，具备自我校验与路径修正能力；成本敏感型项目，用户评价显示其价格仅为竞品的1/5至1/7。对于以下场景，GLM-5.1可能不是最佳选择：单维度极致表现追求的场景，更偏向工程型模型；极限设计感场景，不擅长"做减法"，表达稍弱。从替代方案来看，如果用户需要处理最难的10%任务，可能仍需要使用Claude Opus 4.6或GPT-5.4等前沿模型；但对于其余90%的标准任务，GLM-5.1具有很高的实用价值。
GLM-5.1是智谱AI推出的旗舰级开源大模型，在软件工程领域实现了重大技术突破。其核心优势包括：8小时级长程任务处理能力、SWE-Bench Pro全球开源第一的编程能力、200K超长上下文支持，以及相较于国际顶尖闭源模型显著的价格优势。作为全球首个通过真实工程任务验证8小时持续工作能力的开源模型，GLM-5.1重新定义了AI从"回答问题"到"完成项目"的转变。其自我纠错与长时优化能力使其能够持续在数百轮次、上千次工具调用中保持任务目标一致性，交付工程级成果。从市场表现来看，不到三个月内中国前十大互联网公司中有九家接入，以及4000亿港元的市值突破，都证明了GLM-5.1的技术实力获得了行业认可。展望未来，GLM-5.1的成功发布标志着中国大模型从"追赶"阶段进入"攻坚"阶段，国产大模型在全球AI竞争中的地位将进一步提升。

用户评论

NAdams_Pro

—

睡前把需求丢给它，早上起来活儿真干完了，中间自己规划自己debug，跨几十步还记得最初的约束，这个长程任务能力国产里确实是断档第一。

Logan.Cox

—

能力没得说，就是慢到离谱，一个复杂任务跑了一个多小时，急起来真想砸键盘。

SeanGray_7

—

分享个真实案例。我之前一直用 Typeless 那个 mac 语音输入，年费一千块，主要拿来做 vibe coding。前几天看到 GitHub 上有人发了一段特别详细的提示词，完整描述了一个菜单栏语音输入 app 的需求，我直接原封不动扔给 GLM-5.1 跑。它自己拆模块、写 Swift、遇到编译冲突自己定位改掉，全程没问我一句，大概二十分钟就吐了个带 Makefile 的完整项目，build 出来签名好的 app 直接能跑，按住 Fn 说话底部弹胶囊悬浮窗，波形跟着声音跳，松手文字准确填进光标位置。整个过程只用了五小时额度里不到百分之十。这成品覆盖了 Typeless 九成以上功能，代码还全在我手里，那一千块我大概率不续了。

Vincent_GonzalezX

—

看到有人测睡一觉让它从零搭 Linux 桌面，八小时一千两百多步，早上起来窗口管理器、状态栏、应用、VPN 管理器全齐了，说是相当于四人团队一周的量，这画面还挺科幻的。

何莉霞

—

国产之光实至名归了这次。

Alan.Thompson_Max

—

冷静点说，官方宣传 Pro 套餐额度是 Claude Pro 的十五倍，我实测完全是虚标。跑完一个复杂任务 weekly usage 直接来到百分之八，半天用下来就百分之十了，高强度用根本不够。编码质量确实没啥大毛病，但速度慢加用量虚标这两个硬伤摆在那，所谓性价比优势其实没想象中那么香。

AltSeasonHughes

—

200K 上下文也好意思当亮点吹？人家 Kimi 256K、DeepSeek 都 1M 了，整个代码库塞进去还是有点吃力。

Megan.Wright_6638

—

最戳我的一点是遇到坑不喊人。让它做本地记账应用，装 better-sqlite3 那个包要编译，我环境里没 C++ 工具链，换别的模型这里肯定停下来让我先装，结果它自己发现编译失败，直接改用 sql.js 纯 JS 方案接着往下跑，最后浏览器直接能用。

JCarter_202105

—

作为重度 coding 用户认真评一下。SWE-bench Pro 上它刷新了全球最佳，真实 GitHub 仓库定位修 bug 这种最硬的指标能压过 GPT-5.4 和 Opus 4.6，代码三项综合全球第三国产第一。我印象最深的是那个向量数据库优化的例子，655 轮迭代自己从全库扫描切到 IVF 分桶、加半精度压缩、量化粗排、两级路由，硬是把吞吐从 3108 QPS 推到 21472，六点九倍。这已经不是代码生成器了，是会自己找瓶颈换策略的优化器。

HhshNet

—

架构设计和 UI 审美还是差点意思，得配脚手架。

Abigail_Turner_99

—

真香！用它做了个后台管理系统，从数据库设计到接口实现全程自动，跑通了！之前用其他模型经常卡壳，这个8小时连续工作不是吹的，确实稳。

邹玉

—

用了两周GLM-5.1写后端代码，性价比真的没话说！日常CRUD和小功能开发完全够用，比Claude便宜太多了，终于可以放开膀子写代码了！

N_athanBaker

—

国内抢购这操作是真的服了，定闹钟十点开售照样秒没，钱都得抢着交。最后走国际版年付才买到，也是无语。

Judith.Myers_2023

—

强烈推荐给预算有限的团队！用它替代Claude处理日常需求，一个月上千的订阅费直接砍掉大半，省下来的钱可以买点别的工具。

PWard_Max

—

说实话有点超出预期。本来以为国产模型就那样，结果GLM-5.1的长程任务能力真不错，测试用例自己就能写完整，还知道回头校验错误。

VYW9X1F

—

吐槽一下高峰期涨价的问题！下午三四点那会儿消耗额度直接翻三倍，用起来心疼。建议错峰使用，早上九点前或者晚上十点后性价比最高。

C_Lree

—

刚用GLM-5.1重构了一个半废弃的Vue项目，整体体验还行。不过复杂动画场景还是要手调，生成的代码量有点大，性能开销需要优化。

Theresa_CookK

—

国产之光名不虚传！用它做了个数据可视化大屏，从图表选型到交互逻辑全程AI辅助，最后交付的东西客户还挺满意的。

ARussell520

—

响应速度确实比Claude慢，但胜在便宜啊！用它处理90%的标准任务完全没问题，那10%的复杂场景再用Claude兜底，这样搭配最划算。

r2ke2u1wtp

—

前端调试起来稍微有点头疼，CSS样式纠缠不清的情况还是有的。不过后端代码质量挺高，接口设计和异常处理都比较到位。

PamelaScott

—

用GLM-5.1开发了一个小工具箱，涵盖七八个实用功能，累计跑了四十多个小时。中间偶发卡顿，但整体稳定性能接受。

ADtur

—

客观说，复杂多文件重构和架构设计还是Claude强一些。但日常开发用它足够了，省钱才是硬道理啊！

潘悦勇

—

长上下文处理确实强，10万行代码库丢进去分析，它还记得前面说过的约束，不会突然失忆。这个能力对大型项目帮助很大。

TGomez_9915

—

订阅确实难抢，每次放号都要蹲点。希望智谱能扩大算力供应，需求太大了根本不够用。

Natalie.Hicks168

—

用它写了几个Python脚本，处理Excel和数据清洗太方便了！批量操作和格式转换都能自动完成，省了不少重复劳动。

苏月洋

—

说实话，界面可以再简洁一些。不过功能是真的全，用起来还挺顺手的。

orangecat977

—

配合Claude Code使用效果更佳！用它规划任务和生成代码框架，Claude负责最终优化和调试，分工明确效率翻倍。

NicholasGutierrez_X

—

生成代码的速度挺快的，就是等待的时候有点煎熬。建议智谱优化一下流式输出的体验。

iJoséLozano

—

用了大概一个月，感觉进步很明显。之前GLM-5的一些问题都修复了，死循环的情况基本没再遇到过。

Shirley.Moore007

—

用它做了个项目管理系统，包含用户、订单、权限等模块。从数据库设计到前端页面全程AI辅助，两天就交付了MVP版本。

GLM-5.1

深度报告

用户评论

相关链接

同类产品