Groq

开发专为LLM推理设计的LPU芯片

AI应用开发框架

https://groq.com/

前往官网

深度报告

Groq 是一家成立于2016年的美国AI推理公司，专注于开发专为LLM推理设计的LPU（Language Processing Unit，语言处理单元）芯片。其推理速度可达传统GPU的10倍以上，同时功耗降低90%，被业界视为英伟达在AI推理领域的主要挑战者。2025年9月，Groq完成7.5亿美元融资，估值达69亿美元，全球开发者数量已突破300万。
Groq由前谷歌TPU架构师Jonathan Ross于2016年创立，总部位于硅谷。Jonathan Ross曾是谷歌TPU项目的核心设计者，离职后创立了Groq，目标是解决传统GPU在AI推理场景下的效率瓶颈问题。 Groq的核心竞争力在于其自主研发的LPU芯片。与传统GPU试图兼顾训练和推理不同，LPU从设计之初就专注于推理任务，采用独特的确定性架构和静态调度策略。这种“复古”思路在英伟达凭借HBM显存和CUDA生态统治AI市场的当下，反而成为了差异化优势。融资方面，Groq在2024年8月完成6.4亿美元D轮融资，2025年9月又完成7.5亿美元融资，估值达69亿美元。值得注意的是，2025年12月有消息传出英伟达正考虑以200亿美元收购Groq，尽管最终未达成，但反映出业界对其技术的高度认可。
Groq的核心产品包括LPU推理芯片和GroqCloud云服务平台。 LPU芯片的技术特点主要体现在以下几个方面。首先是超低延迟，LPU采用14nm芯片工艺，下一代将采用三星4nm工艺，可实现每秒500+ tokens的生成速度。其次是高能效，与英伟达H100 GPU相比，LPU在相同任务下的功耗降低约90%。第三是确定性架构，与GPU的动态调度不同，LPU采用静态调度策略，每个计算步骤在编译时就已确定，这消除了运行时调度开销，提升了推理的可预测性。 GroqCloud是托管在AWS、CoreWeave等云平台上的推理服务，提供OpenAI兼容的API接口。开发者只需修改两行代码，即可将现有基于OpenAI的应用迁移到Groq。Groq还提供免费的API Playground，方便开发者试用和调试。在基准测试方面，Groq在LLMPerf公开基准测试中创下了纪录，首批公开结果显示其推理速度比主流云服务快最多18倍。在Meta Llama 2-70B推理任务中，Groq LPU的吞吐量达到英伟达H100的4倍，而延迟仅为后者的四分之一。
Groq采用按token计费的商业模式，提供免费层和付费层。免费层限制为每分钟30次请求、6000 tokens，适合个人开发者测试和学习。付费层价格从每百万tokens 0.05美元起，根据不同模型和请求类型有所差异。相比之下，Groq的定价通常比OpenAI和Anthropic低数倍。 Groq还提供Batch API，为批量处理任务提供25%的折扣，这对于需要处理大量数据的场景非常有吸引力。从成本角度来看，有用户反馈称迁移到Groq后，聊天速度提升7.41倍，同时成本降低89%。这对于对延迟敏感且成本敏感的AI应用具有显著吸引力。
正面评价方面，开发者普遍对Groq的超低延迟印象深刻。多位用户表示切换到Groq后应用的响应速度大幅提升，而成本明显下降。教育领域的用户反馈Groq帮助他们以可负担的价格为学生提供AI服务。技术社区对LPU的架构创新给予高度评价，认为这是硬件软件协同设计的典范。负面反馈主要集中在几个方面。首先是生态系统的成熟度，Groq的开发者社区和工具链相比英伟达CUDA生态还有差距。其次是模型支持，虽然主流开源模型都有支持，但某些特定模型的优化不如GPU版本。第三是产能问题，有用户反映在高峰期有时需要排队等待。使用场景方面，Groq特别适合实时对话应用、需要快速响应的聊天机器人、延迟敏感的交互式AI应用，以及大规模AI API服务提供商。
媒体和分析机构对Groq普遍持积极态度。《华尔街日报》将Groq称为“英伟达挑战者”，《36氪》等中文科技媒体也对其技术进行了深度解析。SemiAnalysis等专业半导体分析机构认为，LPU代表了推理专用硬件的正确方向。从竞争格局来看，Groq的主要竞争对手是英伟达的GPU产品。但与英伟达的通用计算策略不同，Groq选择了一条专注于推理的垂直整合路线。这种差异化策略使其在特定场景下具有显著优势，但也面临着生态壁垒的挑战。行业观察认为，AI推理市场正在快速增长，推理需求可能很快超过训练需求。作为推理专用硬件的领先者，Groq有望在这一趋势中受益。
技术风险方面，LPU的架构创新虽然高效，但软件栈和工具链的成熟度需要时间赶上GPU生态。此外，专用硬件存在被通用芯片通过软件优化追平性能的风险。商业风险方面，英伟达在2025年底考虑收购Groq的传闻虽然未成真，但表明行业巨头可能会通过竞争或并购来应对挑战。长远来看，Groq需要证明其技术优势能够持续转化为市场份额。市场风险方面，AI推理市场仍处于早期阶段，需求增长存在不确定性。同时，大型云服务商和芯片厂商都在加大对推理优化的投入，竞争将日趋激烈。
Groq特别适合以下用户群体：需要超低延迟的实时对话应用开发者、对成本敏感的AI服务提供商、需要大规模推理能力的初创企业，以及探索差异化硬件的技术爱好者。对于以下场景，Groq可能不是最佳选择：需要使用特定商业模型且该模型在Groq上不可用的情况、对GPU生态工具链有强依赖的项目，以及对供应商稳定性有极高要求的企业级应用。替代方案包括英伟达GPU（生态成熟、模型支持广）、Google TPU（大规模部署经验）、以及AWS Inferentia等云厂商自研芯片。
Groq代表了AI推理硬件的一个新方向——通过专用芯片实现极致性能和成本效益。在实时AI应用需求爆发的背景下，LPU技术展现出了显著的差异化优势。然而，从技术领先到商业成功，Groq还需要在生态系统建设、市场拓展方面持续努力。2025年的7.5亿美元融资为其提供了充足的发展资金，300万开发者的规模也证明了市场对其潜力的认可。作为英伟达在AI推理领域的主要挑战者，Groq的发展值得持续关注。

用户评论

plxndapgq

—

实测 Groq LPU 推理速度确实离谱，流水线架构有点东西。之前用 H100 跑 70B 模型要等好几秒，现在基本秒回。成本也降了很多，企业部署可以考虑。

John_Ward8

—

刚看到新闻 Groq 完成 7.5 亿美元融资，AI 推理市场要变天了。

TaylorHill

—

和 OpenAI API 兼容真的太方便了，两行代码就迁移过来，香！

LHillX

—

刚上手 Groq Cloud，整体感觉还不错。API 兼容 OpenAI，迁移成本很低。不过模型种类比预想的少一些，期待后续支持更多模型。

兔兔376

—

7.5 亿美元融资到位，估值 69 亿，这波稳了。希望能尽快推出更多模型支持。

Q6B7ON9

—

深度拆解 Groq LPU 架构，确实是「地表最确定 AI 芯片」，运行时间编译器就算得明明白白，没有任何惊喜但也没有惊吓，稳如老狗。

汪洁

—

Groq 的确定性架构虽然少了点灵活性，但对于推理任务来说，稳定可预测才是最重要的。

蒋伟勇

—

LPU 这波确实牛，推理速度比 H100 快 10 倍，成本只有十分之一，这谁顶得住。

Matthew_GonzalesSr

—

2024 年 AI 推理市场的拐点来了，Groq LPU 实测数据太顶了。

Timothy.Parker

—

用 Groq 跑了个月度报告总结任务，响应速度比之前用的方案快太多了，关键是成本也降了差不多一半。

MaddoxAdams

—

免费层限制有点少，每分钟 30 次请求不太够用。付费价格倒是挺香的。

Sharon_TaylorZ

—

英伟达想收购 Groq？200 亿刀也不是不可能，毕竟技术摆在那里。

GNguyen_2023313

—

期待下一代 4nm 工艺的 LPU，性能应该还能再上一个台阶。

DPhillips_66

—

生态还是太年轻，跟 CUDA 没法比。希望能尽快丰富起来。

BSmith_2022

—

实测 Llama 2 70B 推理，Groq 延迟确实低，适合对响应速度敏感的场景。

ACastillo_2020

—

看了深度解析 Groq 架构的文章，确实有点东西。静态调度虽然看起来复古，但效果拔群。

萧兰然

—

英伟达挑战者来了？Groq 这波 LPU 确实打到了英伟达的痛点。

DWatsonJr

—

Groq LPU 主要是为大模型推理场景而设计的，尤其在大量用户并发访问的场景下表现更好，推理速度快意味着成本更低。

RGreen_2023

—

天下武功，唯快不破。Groq 这波直接刷新了对 AI 推理芯片的认知。

JAbel

—

地表最强推理芯片？实测见真章。

Groq

深度报告

用户评论

相关链接

同类产品