深度报告
-
Gemma 4 是 Google DeepMind 于 2026 年 4 月 2 日发布的最新一代开源大模型家族,基于 Gemini 3 研究和技术构建,定位为「同等参数规模下最强的开源模型」。该系列包含 E2B、E4B、26B MoE、31B Dense 四款尺寸,首次采用 Apache 2.0 许可证实现全面开源商用,31B 版本以 1452 Elo 位列 LMSYS Chatbot Arena 开源模型全球第三,仅次于 GLM-5 和 Kimi 2.5 等超大闭源模型,用不到三十分之一的参数量实现了与 600B+ 级别模型相当的智能水平。Gemma 系列自 2024 年发布以来累计下载已超过 4 亿次,衍生超过 10 万个变体模型。
-
Google DeepMind 在 2024 年 2 月首次发布 Gemma 系列开放模型,此后保持每年一迭代的节奏。Gemma 4 是该系列的第三代产品,官方发布时间为 2026 年 4 月 2 日,发布方为 Google DeepMind,代码基于 Jax、Keras 等 Google 自有框架训练。值得注意的是,Gemma 4 首次抛弃了 Google 此前惯用的专有自定义许可证,转而采用 OSI(开放源代码倡议)认证的 Apache 2.0 许可证,这一转变被社区视为 Google 在开源生态中争取开发者信任的重要信号。Gemma 4 与 Google 闭源旗舰 Gemini 3 共享底层研究技术,是目前可以在本地硬件上运行的性能最强的 Google 开放模型。
-
Gemma 4 系列在模型架构上引入了多项创新设计,形成了与其他开源模型明显的差异化能力。 关于模型规格与架构创新。Gemma 4 提供四款尺寸:E2B(总参数 5.1B,激活约 2.3B)、E4B(总参数约 8B,激活约 4.5B)、26B MoE(总参数 25.2B,激活仅 3.8B,采用 128 专家混合专家路由)以及 31B Dense(总参数 30.7B)。其中 26B MoE 通过稀疏激活机制实现推理速度比同等能力稠密模型提升 2.5 倍的效果。在上下文支持方面,26B 和 31B 支持最长 256K token 上下文,配合交替局部滑动窗口注意力(局部层 512-1024 Token)与全局全上下文注意力,以及双 RoPE 位置编码(滑动窗口用标准 RoPE,全局层用比例 RoPE),在 256K 满载「大海捞针」测试中准确率保持在 99% 以上。逐层嵌入(Per-Layer Embedding)技术让 E2B 量化后可压至 1.5GB 以下,使其在移动端实现完全离线运行,Android 设备上通过 AICore 可获得超过 40 token/s 的推理速度。 关于核心功能。Gemma 4 支持三大核心能力:一是 Agentic Workflows,原生支持函数调用(Function Calling)、JSON 输出和 System 指令,模型天生知道如何使用工具,而非通过指令跟随事后模拟,τ2-bench 代理工具使用基准从 Gemma 3 的 6.6% 跃升至 86.4%;二是 Multimodal Reasoning,内置约 550M 参数的视觉编码器,支持文本、图像、音频三模态输入,31B 版本还支持最长 60 秒视频序列输入(目前同参数量级中唯一支持视频输入的模型),三是多语言支持,宣称覆盖 140+ 语言,在多语言理解基准上大幅超越上一代。 关于部署与生态。模型权重可通过 Hugging Face、Ollama、Kaggle、LM Studio、Docker 等主流渠道获取,训练与部署框架支持 Jax、Vertex AI、Keras、Google AI Edge、Google Kubernetes Engine 等。安全方面,Gemma 4 模型采用与 Google 闭源模型相同的严格基础设施安全协议,企业和主权组织可获得透明的安全白皮书。
-
Gemma 4 所有尺寸版本均完全免费使用,包括商业目的。Apache 2.0 许可证允许用户自由下载、修改和商业使用,只需保留适当的版权声明,无需向 Google 支付任何费用,不设置使用量上限或强制 API 调用路径。这一模式与 Google 传统的云服务变现路径形成有趣对照——Google 通过开放免费模型扩大 Jax、Vertex AI、Google Kubernetes Engine 等自有训练和部署框架的使用量,从而在云服务侧获得回报。对企业而言,Apache 2.0 许可证消除了法律审查摩擦和合规风险,特别适合对模型训练数据安全审核有严格要求的金融、医疗和政府部门。
-
Gemma 4 在开发者社区引发的讨论热度极高,主要集中在三个维度的反馈。 在积极评价方面,Apache 2.0 许可证获得了几乎一边倒的认可,被认为是「终于可以放心商用」的关键突破。Hugging Face 团队在评测中表示,Gemma 4 开箱即用的质量「高到难以找到足够有代表性的微调示例」,暗示该模型在预训练阶段已经吸收了足够广泛的能力覆盖。多语言能力是另一大亮点,140+ 语言的支持使得 Gemma 4 在非英语任务场景中的泛化性显著优于竞品。31B 版本 Codeforces ELO 达 2150,在编程竞赛类任务上大幅领先同类开源模型,AIME 2026 数学推理达到 89.2%,相比 Gemma 3 的 20.8% 提升了 68 个百分点。 在批评声音方面,推理速度是最主要的槽点:26B MoE 版本实测吞吐量仅约 11 token/s,远低于 Qwen 3.5 在同等硬件下约 60 token/s 的表现,部分原因是 Gemma 4 尚未公开确认支持 MTP(多步预测)和推测解码等加速技术。长上下文场景下的 KV Cache 显存压力也是痛点:256K 满载状态下仅 KV Cache 就需要约 20.8 GiB 显存,加上权重量化后仍对硬件要求较高。此外,Gemma 4 发布初期存在一定的工程摩擦,例如特定量化版本可能出现乱码、部分功能依赖较新的框架版本等问题。社区也对评测基准选择的客观性存在一定争议,呼吁 Google 公开更多训练数据和评测方法论。
-
Gemma 4 的发布在开源大模型格局中激起了显著波澜。从竞品格局看,Gemma 4 31B 与 Qwen 3.5 27B 是当前最受关注的同档位直接竞争者,两者均采用 Apache 2.0 协议、支持思考模式、可免费商用。在传统闭卷基准(GPQA Diamond、LiveCodeBench)上 Qwen 3.5 小幅领先,在人类对话偏好(Arena AI Elo)上 Gemma 4 明显胜出;在多模态特别是视频输入支持上 Gemma 4 独树一帜,在超长上下文(100 万 token)支持上 Qwen 3.5 优势更大;在中文生态深度和工具链成熟度上,Qwen 3.5 仍具护城河。Gemma 4 的发布被部分观察者解读为 Google 试图通过「更开放」的姿态重新争夺开源模型领域的话语权——此前 Google 在开源领域的动作相对保守,而 Meta 的 Llama 系列凭借更激进的开放策略积累了更强势的开发者生态。
-
需要理性看待 Gemma 4 的几个潜在问题。一是评测基准的倾向性争议,有社区声音质疑 Google 选择性披露对自己有利的基准数据,部分数据未完整公开,影响外界全面评估;二是训练流程的不透明,Google 尚未完全公开 Gemma 4 的训练数据来源、RLHF 方法论和后训练流程,与 Llama 4 面临类似的信息披露压力;三是硬件门槛的实质挑战,31B Dense 版本在 4-bit 量化下仍需约 24GB 显存,长上下文场景的 KV Cache 压力使其难以在消费级 24GB 显卡上实现高并发;四是推理效率短板,在 MTP 加速和推测解码等工程优化方面落后于 Qwen 3.5,可能影响企业选型决策。
-
强烈推荐使用 Gemma 4 的场景包括:需要多语言任务支持的开发者(特别是非英语业务,Gemma 4 在多语言理解上优势明显)、有强合规需求的团队(金融、医疗、政府等需要完整安全白皮书的行业)、需要视频理解能力的多模态应用开发者(31B 是目前同参数量级唯一支持 60 秒视频输入的模型)、算法竞赛学习者(Codeforces ELO 2150 显著优于同类)、以及需要微调基座的企业(31B Dense 定位为微调基座,预训练质量高)。 可能需要考虑其他选择的情况包括:预算敏感或硬件一般的开发者(Qwen 3.5 的推理速度和量化成熟度更具成本优势)、中文主导业务团队(Qwen 在中文对齐上有更深的积累和完整的评测数据)、极端长上下文使用者(Qwen 3.5 的 100 万 token 上下文窗口是 Gemma 256K 的 4 倍)、以及对推理延迟敏感的生产环境(Qwen 3.5 在 vLLM 上实测吞吐量优势明显)。
-
Gemma 4 是 Google 在开源大模型领域投下的一枚战略棋子,以 Apache 2.0 全面开源、31B 参数比肩 600B+ 闭源模型性能、以及多语言和多模态的差异化能力,重塑了开源模型的价值基准。它不是所有人的「无脑迁移」首选,但在多语言理解、视频理解、合规商用等特定维度上构建了真实竞争力。对于已在 Qwen 3.5 上跑通稳定工作流的团队,Gemma 4 目前更像一个「值得高度关注并小规模评估的备用引擎」,而非必须立刻倾囊迁移的终极答案。
用户评论
-
tfziukdfa42025—Gemma 4 31B 跑 Claude Code 真的太香了,70%日常开发任务都能Cover,月费直接省掉 -
CarterGomez_dev—手机离线跑AI终于不是噱头了,E4B才3.2GB内存,实测可用 -
HaroldCooper—E4B 手机端实测!断网真能跑,生成速度比上代快了一截,就是逻辑推理题还是拉胯 -
飞鸟639—从Gemma 3换过来,31B提升是真的猛,AIME从20%跳到89%,这幅度有点夸张 -
海角791—Apache 2.0!终于等到这一天,Google这次真的良心了,企业商用再也不用担心法务 -
JWhite_Plus—实测26B MoE版本每秒才11个token,比Qwen 3.5慢太多了,推理速度是硬伤 -
mONIQUE927—部署了一下午终于跑起来了,分享下显存需求:31B用4bit量化需要约24GB显存,26B MoE约18GB,16GB显卡基本没戏 -
ArthurSullivanIII510—Hugging Face直接开源下载,权重随便用,Google这波格局打开了 -
星辰618—已经在用Gemma 4做代码补全,配合Claude Code,平日写代码基本不用开云端了 -
Keith.Davis007—E4B端侧实测:生成速度有明显提升,回复成功率也比之前高了。深度思考功能就别想了,端侧模型带不动 -
Angela_Martin_66—多语言支持140+语言是真的强,之前用Qwen做翻译总觉得差点意思,换Gemma 4效果好很多 -
Teresa_Garcia_Pro436—打榜1452,开源第三,31B干翻600B+模型,Google这波真猛 -
LMorales_2020—刚部署完26B MoE,配合vLLM跑,显存占用比我预期的低 -
Walter197—问了个草莓有几个r,答成2个……端侧小参数模型逻辑推理还是不太行 -
Rita816—26B MoE工具调用链太长容易失控,CLAUDE.md里加了限制,一次只准调用一个工具 -
CarterWhite—本地跑起来之后成本几乎为零,Claude Pro月费100块瞬间不香了 -
Pamela.Myers520—256K上下文在RAG场景太爽了,之前128K经常不够用,现在整本书直接喂进去 -
流光682—Codeforces ELO 2150,编程竞赛类任务直接超越Qwen 3.5,这个必须点赞 -
Lawrence.GarciaZ77—对比了下Qwen 3.5:中文任务还是Qwen强,但多语言场景Gemma 4明显更稳 -
SavannahPerry—4亿次下载,10万变体,Gemmaverse生态是真的起来了 -
NodeDex—已经在用31B做微调基座了,开箱质量太高,反而找不到足够有代表性的微调数据 -
RBaileyJr—支持视频输入!31B是唯一支持60秒视频的开源模型,这个太关键了 -
Kathryn146—实测跨文件架构问题还是搞不定,并发错误也是弱项,别期待太高 -
GRamirez_Max—选型建议:多语言+合规选Gemma,纯中文+超长上下文选Qwen,两个都要就混合部署 -
372vkp68n—开源模型新天花板,Apache 2.0加这个性能,Google终于认真做开源了 -
goldenwolf532—用了两天31B,发现在复杂bug修复上还是和云端模型有明显差距,但日常任务完全够了 -
云烟358—Agent能力从Gemma 3的6.6%直接拉到86.4%,这跃升有点离谱 -
Frank_KellyQ5—企业部署首选,数据不用上云,敏感代码留在内网,这个对金融医疗太友好了 -
潘博心—在Hugging Face下载了31B版本,配合Ollama本地部署,目前跑起来还挺顺的 -
xplupsu30b—31B用4bit量化实测能跑,但长上下文场景显存会爆,24GB显卡用户建议观望