Gemma-4

由 Google DeepMind 发布的最新一代开源大模型

大语言模型 Google

https://deepmind.google/models/gemma/gemma-4/

前往官网

深度报告

Gemma 4 是 Google DeepMind 于 2026 年 4 月 2 日发布的最新一代开源大模型家族，基于 Gemini 3 研究和技术构建，定位为「同等参数规模下最强的开源模型」。该系列包含 E2B、E4B、26B MoE、31B Dense 四款尺寸，首次采用 Apache 2.0 许可证实现全面开源商用，31B 版本以 1452 Elo 位列 LMSYS Chatbot Arena 开源模型全球第三，仅次于 GLM-5 和 Kimi 2.5 等超大闭源模型，用不到三十分之一的参数量实现了与 600B+ 级别模型相当的智能水平。Gemma 系列自 2024 年发布以来累计下载已超过 4 亿次，衍生超过 10 万个变体模型。
Google DeepMind 在 2024 年 2 月首次发布 Gemma 系列开放模型，此后保持每年一迭代的节奏。Gemma 4 是该系列的第三代产品，官方发布时间为 2026 年 4 月 2 日，发布方为 Google DeepMind，代码基于 Jax、Keras 等 Google 自有框架训练。值得注意的是，Gemma 4 首次抛弃了 Google 此前惯用的专有自定义许可证，转而采用 OSI（开放源代码倡议）认证的 Apache 2.0 许可证，这一转变被社区视为 Google 在开源生态中争取开发者信任的重要信号。Gemma 4 与 Google 闭源旗舰 Gemini 3 共享底层研究技术，是目前可以在本地硬件上运行的性能最强的 Google 开放模型。
Gemma 4 系列在模型架构上引入了多项创新设计，形成了与其他开源模型明显的差异化能力。关于模型规格与架构创新。Gemma 4 提供四款尺寸：E2B（总参数 5.1B，激活约 2.3B）、E4B（总参数约 8B，激活约 4.5B）、26B MoE（总参数 25.2B，激活仅 3.8B，采用 128 专家混合专家路由）以及 31B Dense（总参数 30.7B）。其中 26B MoE 通过稀疏激活机制实现推理速度比同等能力稠密模型提升 2.5 倍的效果。在上下文支持方面，26B 和 31B 支持最长 256K token 上下文，配合交替局部滑动窗口注意力（局部层 512-1024 Token）与全局全上下文注意力，以及双 RoPE 位置编码（滑动窗口用标准 RoPE，全局层用比例 RoPE），在 256K 满载「大海捞针」测试中准确率保持在 99% 以上。逐层嵌入（Per-Layer Embedding）技术让 E2B 量化后可压至 1.5GB 以下，使其在移动端实现完全离线运行，Android 设备上通过 AICore 可获得超过 40 token/s 的推理速度。关于核心功能。Gemma 4 支持三大核心能力：一是 Agentic Workflows，原生支持函数调用（Function Calling）、JSON 输出和 System 指令，模型天生知道如何使用工具，而非通过指令跟随事后模拟，τ2-bench 代理工具使用基准从 Gemma 3 的 6.6% 跃升至 86.4%；二是 Multimodal Reasoning，内置约 550M 参数的视觉编码器，支持文本、图像、音频三模态输入，31B 版本还支持最长 60 秒视频序列输入（目前同参数量级中唯一支持视频输入的模型），三是多语言支持，宣称覆盖 140+ 语言，在多语言理解基准上大幅超越上一代。关于部署与生态。模型权重可通过 Hugging Face、Ollama、Kaggle、LM Studio、Docker 等主流渠道获取，训练与部署框架支持 Jax、Vertex AI、Keras、Google AI Edge、Google Kubernetes Engine 等。安全方面，Gemma 4 模型采用与 Google 闭源模型相同的严格基础设施安全协议，企业和主权组织可获得透明的安全白皮书。
Gemma 4 所有尺寸版本均完全免费使用，包括商业目的。Apache 2.0 许可证允许用户自由下载、修改和商业使用，只需保留适当的版权声明，无需向 Google 支付任何费用，不设置使用量上限或强制 API 调用路径。这一模式与 Google 传统的云服务变现路径形成有趣对照——Google 通过开放免费模型扩大 Jax、Vertex AI、Google Kubernetes Engine 等自有训练和部署框架的使用量，从而在云服务侧获得回报。对企业而言，Apache 2.0 许可证消除了法律审查摩擦和合规风险，特别适合对模型训练数据安全审核有严格要求的金融、医疗和政府部门。
Gemma 4 在开发者社区引发的讨论热度极高，主要集中在三个维度的反馈。在积极评价方面，Apache 2.0 许可证获得了几乎一边倒的认可，被认为是「终于可以放心商用」的关键突破。Hugging Face 团队在评测中表示，Gemma 4 开箱即用的质量「高到难以找到足够有代表性的微调示例」，暗示该模型在预训练阶段已经吸收了足够广泛的能力覆盖。多语言能力是另一大亮点，140+ 语言的支持使得 Gemma 4 在非英语任务场景中的泛化性显著优于竞品。31B 版本 Codeforces ELO 达 2150，在编程竞赛类任务上大幅领先同类开源模型，AIME 2026 数学推理达到 89.2%，相比 Gemma 3 的 20.8% 提升了 68 个百分点。在批评声音方面，推理速度是最主要的槽点：26B MoE 版本实测吞吐量仅约 11 token/s，远低于 Qwen 3.5 在同等硬件下约 60 token/s 的表现，部分原因是 Gemma 4 尚未公开确认支持 MTP（多步预测）和推测解码等加速技术。长上下文场景下的 KV Cache 显存压力也是痛点：256K 满载状态下仅 KV Cache 就需要约 20.8 GiB 显存，加上权重量化后仍对硬件要求较高。此外，Gemma 4 发布初期存在一定的工程摩擦，例如特定量化版本可能出现乱码、部分功能依赖较新的框架版本等问题。社区也对评测基准选择的客观性存在一定争议，呼吁 Google 公开更多训练数据和评测方法论。
Gemma 4 的发布在开源大模型格局中激起了显著波澜。从竞品格局看，Gemma 4 31B 与 Qwen 3.5 27B 是当前最受关注的同档位直接竞争者，两者均采用 Apache 2.0 协议、支持思考模式、可免费商用。在传统闭卷基准（GPQA Diamond、LiveCodeBench）上 Qwen 3.5 小幅领先，在人类对话偏好（Arena AI Elo）上 Gemma 4 明显胜出；在多模态特别是视频输入支持上 Gemma 4 独树一帜，在超长上下文（100 万 token）支持上 Qwen 3.5 优势更大；在中文生态深度和工具链成熟度上，Qwen 3.5 仍具护城河。Gemma 4 的发布被部分观察者解读为 Google 试图通过「更开放」的姿态重新争夺开源模型领域的话语权——此前 Google 在开源领域的动作相对保守，而 Meta 的 Llama 系列凭借更激进的开放策略积累了更强势的开发者生态。
需要理性看待 Gemma 4 的几个潜在问题。一是评测基准的倾向性争议，有社区声音质疑 Google 选择性披露对自己有利的基准数据，部分数据未完整公开，影响外界全面评估；二是训练流程的不透明，Google 尚未完全公开 Gemma 4 的训练数据来源、RLHF 方法论和后训练流程，与 Llama 4 面临类似的信息披露压力；三是硬件门槛的实质挑战，31B Dense 版本在 4-bit 量化下仍需约 24GB 显存，长上下文场景的 KV Cache 压力使其难以在消费级 24GB 显卡上实现高并发；四是推理效率短板，在 MTP 加速和推测解码等工程优化方面落后于 Qwen 3.5，可能影响企业选型决策。
强烈推荐使用 Gemma 4 的场景包括：需要多语言任务支持的开发者（特别是非英语业务，Gemma 4 在多语言理解上优势明显）、有强合规需求的团队（金融、医疗、政府等需要完整安全白皮书的行业）、需要视频理解能力的多模态应用开发者（31B 是目前同参数量级唯一支持 60 秒视频输入的模型）、算法竞赛学习者（Codeforces ELO 2150 显著优于同类）、以及需要微调基座的企业（31B Dense 定位为微调基座，预训练质量高）。可能需要考虑其他选择的情况包括：预算敏感或硬件一般的开发者（Qwen 3.5 的推理速度和量化成熟度更具成本优势）、中文主导业务团队（Qwen 在中文对齐上有更深的积累和完整的评测数据）、极端长上下文使用者（Qwen 3.5 的 100 万 token 上下文窗口是 Gemma 256K 的 4 倍）、以及对推理延迟敏感的生产环境（Qwen 3.5 在 vLLM 上实测吞吐量优势明显）。
Gemma 4 是 Google 在开源大模型领域投下的一枚战略棋子，以 Apache 2.0 全面开源、31B 参数比肩 600B+ 闭源模型性能、以及多语言和多模态的差异化能力，重塑了开源模型的价值基准。它不是所有人的「无脑迁移」首选，但在多语言理解、视频理解、合规商用等特定维度上构建了真实竞争力。对于已在 Qwen 3.5 上跑通稳定工作流的团队，Gemma 4 目前更像一个「值得高度关注并小规模评估的备用引擎」，而非必须立刻倾囊迁移的终极答案。

用户评论

tfziukdfa42025

—

Gemma 4 31B 跑 Claude Code 真的太香了，70%日常开发任务都能Cover，月费直接省掉

CarterGomez_dev

—

手机离线跑AI终于不是噱头了，E4B才3.2GB内存，实测可用

HaroldCooper

—

E4B 手机端实测！断网真能跑，生成速度比上代快了一截，就是逻辑推理题还是拉胯

飞鸟639

—

从Gemma 3换过来，31B提升是真的猛，AIME从20%跳到89%，这幅度有点夸张

海角791

—

Apache 2.0！终于等到这一天，Google这次真的良心了，企业商用再也不用担心法务

JWhite_Plus

—

实测26B MoE版本每秒才11个token，比Qwen 3.5慢太多了，推理速度是硬伤

mONIQUE927

—

部署了一下午终于跑起来了，分享下显存需求：31B用4bit量化需要约24GB显存，26B MoE约18GB，16GB显卡基本没戏

ArthurSullivanIII510

—

Hugging Face直接开源下载，权重随便用，Google这波格局打开了

星辰618

—

已经在用Gemma 4做代码补全，配合Claude Code，平日写代码基本不用开云端了

Keith.Davis007

—

E4B端侧实测：生成速度有明显提升，回复成功率也比之前高了。深度思考功能就别想了，端侧模型带不动

Angela_Martin_66

—

多语言支持140+语言是真的强，之前用Qwen做翻译总觉得差点意思，换Gemma 4效果好很多

Teresa_Garcia_Pro436

—

打榜1452，开源第三，31B干翻600B+模型，Google这波真猛

LMorales_2020

—

刚部署完26B MoE，配合vLLM跑，显存占用比我预期的低

Walter197

—

问了个草莓有几个r，答成2个……端侧小参数模型逻辑推理还是不太行

Rita816

—

26B MoE工具调用链太长容易失控，CLAUDE.md里加了限制，一次只准调用一个工具

CarterWhite

—

本地跑起来之后成本几乎为零，Claude Pro月费100块瞬间不香了

Pamela.Myers520

—

256K上下文在RAG场景太爽了，之前128K经常不够用，现在整本书直接喂进去

流光682

—

Codeforces ELO 2150，编程竞赛类任务直接超越Qwen 3.5，这个必须点赞

Lawrence.GarciaZ77

—

对比了下Qwen 3.5：中文任务还是Qwen强，但多语言场景Gemma 4明显更稳

SavannahPerry

—

4亿次下载，10万变体，Gemmaverse生态是真的起来了

NodeDex

—

已经在用31B做微调基座了，开箱质量太高，反而找不到足够有代表性的微调数据

RBaileyJr

—

支持视频输入！31B是唯一支持60秒视频的开源模型，这个太关键了

Kathryn146

—

实测跨文件架构问题还是搞不定，并发错误也是弱项，别期待太高

GRamirez_Max

—

选型建议：多语言+合规选Gemma，纯中文+超长上下文选Qwen，两个都要就混合部署

372vkp68n

—

开源模型新天花板，Apache 2.0加这个性能，Google终于认真做开源了

goldenwolf532

—

用了两天31B，发现在复杂bug修复上还是和云端模型有明显差距，但日常任务完全够了

云烟358

—

Agent能力从Gemma 3的6.6%直接拉到86.4%，这跃升有点离谱

Frank_KellyQ5

—

企业部署首选，数据不用上云，敏感代码留在内网，这个对金融医疗太友好了

潘博心

—

在Hugging Face下载了31B版本，配合Ollama本地部署，目前跑起来还挺顺的

xplupsu30b

—

31B用4bit量化实测能跑，但长上下文场景显存会爆，24GB显卡用户建议观望

Gemma-4

深度报告

用户评论

相关链接

同类产品