Groq

开发专为LLM推理设计的LPU芯片

深度报告

  • Groq 是一家成立于2016年的美国AI推理公司,专注于开发专为LLM推理设计的LPU(Language Processing Unit,语言处理单元)芯片。其推理速度可达传统GPU的10倍以上,同时功耗降低90%,被业界视为英伟达在AI推理领域的主要挑战者。2025年9月,Groq完成7.5亿美元融资,估值达69亿美元,全球开发者数量已突破300万。

  • Groq由前谷歌TPU架构师Jonathan Ross于2016年创立,总部位于硅谷。Jonathan Ross曾是谷歌TPU项目的核心设计者,离职后创立了Groq,目标是解决传统GPU在AI推理场景下的效率瓶颈问题。 Groq的核心竞争力在于其自主研发的LPU芯片。与传统GPU试图兼顾训练和推理不同,LPU从设计之初就专注于推理任务,采用独特的确定性架构和静态调度策略。这种“复古”思路在英伟达凭借HBM显存和CUDA生态统治AI市场的当下,反而成为了差异化优势。 融资方面,Groq在2024年8月完成6.4亿美元D轮融资,2025年9月又完成7.5亿美元融资,估值达69亿美元。值得注意的是,2025年12月有消息传出英伟达正考虑以200亿美元收购Groq,尽管最终未达成,但反映出业界对其技术的高度认可。

  • Groq的核心产品包括LPU推理芯片和GroqCloud云服务平台。 LPU芯片的技术特点主要体现在以下几个方面。首先是超低延迟,LPU采用14nm芯片工艺,下一代将采用三星4nm工艺,可实现每秒500+ tokens的生成速度。其次是高能效,与英伟达H100 GPU相比,LPU在相同任务下的功耗降低约90%。第三是确定性架构,与GPU的动态调度不同,LPU采用静态调度策略,每个计算步骤在编译时就已确定,这消除了运行时调度开销,提升了推理的可预测性。 GroqCloud是托管在AWS、CoreWeave等云平台上的推理服务,提供OpenAI兼容的API接口。开发者只需修改两行代码,即可将现有基于OpenAI的应用迁移到Groq。Groq还提供免费的API Playground,方便开发者试用和调试。 在基准测试方面,Groq在LLMPerf公开基准测试中创下了纪录,首批公开结果显示其推理速度比主流云服务快最多18倍。在Meta Llama 2-70B推理任务中,Groq LPU的吞吐量达到英伟达H100的4倍,而延迟仅为后者的四分之一。

  • Groq采用按token计费的商业模式,提供免费层和付费层。 免费层限制为每分钟30次请求、6000 tokens,适合个人开发者测试和学习。付费层价格从每百万tokens 0.05美元起,根据不同模型和请求类型有所差异。相比之下,Groq的定价通常比OpenAI和Anthropic低数倍。 Groq还提供Batch API,为批量处理任务提供25%的折扣,这对于需要处理大量数据的场景非常有吸引力。 从成本角度来看,有用户反馈称迁移到Groq后,聊天速度提升7.41倍,同时成本降低89%。这对于对延迟敏感且成本敏感的AI应用具有显著吸引力。

  • 正面评价方面,开发者普遍对Groq的超低延迟印象深刻。多位用户表示切换到Groq后应用的响应速度大幅提升,而成本明显下降。教育领域的用户反馈Groq帮助他们以可负担的价格为学生提供AI服务。技术社区对LPU的架构创新给予高度评价,认为这是硬件软件协同设计的典范。 负面反馈主要集中在几个方面。首先是生态系统的成熟度,Groq的开发者社区和工具链相比英伟达CUDA生态还有差距。其次是模型支持,虽然主流开源模型都有支持,但某些特定模型的优化不如GPU版本。第三是产能问题,有用户反映在高峰期有时需要排队等待。 使用场景方面,Groq特别适合实时对话应用、需要快速响应的聊天机器人、延迟敏感的交互式AI应用,以及大规模AI API服务提供商。

  • 媒体和分析机构对Groq普遍持积极态度。《华尔街日报》将Groq称为“英伟达挑战者”,《36氪》等中文科技媒体也对其技术进行了深度解析。SemiAnalysis等专业半导体分析机构认为,LPU代表了推理专用硬件的正确方向。 从竞争格局来看,Groq的主要竞争对手是英伟达的GPU产品。但与英伟达的通用计算策略不同,Groq选择了一条专注于推理的垂直整合路线。这种差异化策略使其在特定场景下具有显著优势,但也面临着生态壁垒的挑战。 行业观察认为,AI推理市场正在快速增长,推理需求可能很快超过训练需求。作为推理专用硬件的领先者,Groq有望在这一趋势中受益。

  • 技术风险方面,LPU的架构创新虽然高效,但软件栈和工具链的成熟度需要时间赶上GPU生态。此外,专用硬件存在被通用芯片通过软件优化追平性能的风险。 商业风险方面,英伟达在2025年底考虑收购Groq的传闻虽然未成真,但表明行业巨头可能会通过竞争或并购来应对挑战。长远来看,Groq需要证明其技术优势能够持续转化为市场份额。 市场风险方面,AI推理市场仍处于早期阶段,需求增长存在不确定性。同时,大型云服务商和芯片厂商都在加大对推理优化的投入,竞争将日趋激烈。

  • Groq特别适合以下用户群体:需要超低延迟的实时对话应用开发者、对成本敏感的AI服务提供商、需要大规模推理能力的初创企业,以及探索差异化硬件的技术爱好者。 对于以下场景,Groq可能不是最佳选择:需要使用特定商业模型且该模型在Groq上不可用的情况、对GPU生态工具链有强依赖的项目,以及对供应商稳定性有极高要求的企业级应用。 替代方案包括英伟达GPU(生态成熟、模型支持广)、Google TPU(大规模部署经验)、以及AWS Inferentia等云厂商自研芯片。

  • Groq代表了AI推理硬件的一个新方向——通过专用芯片实现极致性能和成本效益。在实时AI应用需求爆发的背景下,LPU技术展现出了显著的差异化优势。然而,从技术领先到商业成功,Groq还需要在生态系统建设、市场拓展方面持续努力。2025年的7.5亿美元融资为其提供了充足的发展资金,300万开发者的规模也证明了市场对其潜力的认可。作为英伟达在AI推理领域的主要挑战者,Groq的发展值得持续关注。

用户评论

  • 头像
    plxndapgq
    实测 Groq LPU 推理速度确实离谱,流水线架构有点东西。之前用 H100 跑 70B 模型要等好几秒,现在基本秒回。成本也降了很多,企 业部署可以考虑。

  • 头像
    John_Ward8
    刚看到新闻 Groq 完成 7.5 亿美元融资,AI 推理市场要变天了。

  • 头像
    TaylorHill
    和 OpenAI API 兼容真的太方便了,两行代码就迁移过来,香!

  • 头像
    LHillX
    刚上手 Groq Cloud,整体感觉还不错。API 兼容 OpenAI,迁移成本很低。不过模型种类比预想的少一些,期待后续支持更多模型。

  • 头像
    兔兔376
    7.5 亿美元融资到位,估值 69 亿,这波稳了。希望能尽快推出更多模型支持。

  • 头像
    Q6B7ON9
    深度拆解 Groq LPU 架构,确实是「地表最确定 AI 芯片」,运行时间编译器就算得明明白白,没有任何惊喜但也没有惊吓,稳如老狗。

  • 头像
    汪洁
    Groq 的确定性架构虽然少了点灵活性,但对于推理任务来说,稳定可预测才是最重要的。

  • 头像
    蒋伟勇
    LPU 这波确实牛,推理速度比 H100 快 10 倍,成本只有十分之一,这谁顶得住。

  • 头像
    Matthew_GonzalesSr
    2024 年 AI 推理市场的拐点来了,Groq LPU 实测数据太顶了。

  • 头像
    Timothy.Parker
    用 Groq 跑了个月度报告总结任务,响应速度比之前用的方案快太多了,关键是成本也降了差不多一半。

  • 头像
    MaddoxAdams
    免费层限制有点少,每分钟 30 次请求不太够用。付费价格倒是挺香的。

  • 头像
    Sharon_TaylorZ
    英伟达想收购 Groq?200 亿刀也不是不可能,毕竟技术摆在那里。

  • 头像
    GNguyen_2023313
    期待下一代 4nm 工艺的 LPU,性能应该还能再上一个台阶。

  • 头像
    DPhillips_66
    生态还是太年轻,跟 CUDA 没法比。希望能尽快丰富起来。

  • 头像
    BSmith_2022
    实测 Llama 2 70B 推理,Groq 延迟确实低,适合对响应速度敏感的场景。

  • 头像
    ACastillo_2020
    看了深度解析 Groq 架构的文章,确实有点东西。静态调度虽然看起来复古,但效果拔群。

  • 头像
    萧兰然
    英伟达挑战者来了?Groq 这波 LPU 确实打到了英伟达的痛点。

  • 头像
    DWatsonJr
    Groq LPU 主要是为大模型推理场景而设计的,尤其在大量用户并发访问的场景下表现更好,推理速度快意味着成本更低。

  • 头像
    RGreen_2023
    天下武功,唯快不破。Groq 这波直接刷新了对 AI 推理芯片的认知。

  • 头像
    JAbel
    地表最强推理芯片?实测见真章。