Groq大模型推理芯片每秒500tokens超越GPU,喊话3年超过英伟达9
发表时间:2024-02-23 10:27 信创参考XCCK 英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一。 一觉醒来,AI圈又变天了。 不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。 每秒500 tokens,写论文比你眨眼还快 根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。 图片来源:GIT HUB 华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。 还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。 LPU,英伟达GPU的挑战者? 根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求: Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。 简单来说,对用户而言,最直观的体验就是“快”。 使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。 比如下图,华尔街见闻向Groq询问LPU和GPU的区别,Groq生成这个回答用时不到3秒,完全不会像GPT、Gemini那样出现显著的延迟。如果以英文提问,生成速度还会更快。 Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。 GroqChip LPU的独特之处在于,它不依赖于三星或SK海力士的HBM,也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。 不过,另有一些AI专家在社交媒体上表示,Groq芯片的实际成本并不低。 如人工智能专家贾扬清分析称,Groq综合成本相当于英伟达GPU的30多倍。 考虑到每张Groq芯片的内存容量为230MB,实际运行模型需要572张芯片,总成本高达1144万美元。 相比之下,8张H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元,年度电费约2.4万美元。三年总运营成本对比显示,Groq系统的运营成本远高于H100系统, 而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。 创始人为谷歌TPU设计者之一 相信未来2年能卖出100万个LPU 在今天互联网上一炮而红之前,Groq已经低调埋头研发7年多的时间。 公开资料显示,Groq成立于2016年,总部位于美国加州圣塔克拉拉山景城。公司创始人Jonathan Ross是前谷歌高级工程师,是谷歌自研AI芯片TPU的设计者之一。产品主管John Barrus曾在谷歌及亚马逊担任产品高管。 高管内唯一一位华裔面孔、副总裁Estelle Hong,在公司任职已有四年,此前曾供职于美国军队及英特尔。 在12个月内,我们可以部署10万个LPU,
|