史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU
gangqin @ 2024年02月21日 财经风云
史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU 硬AI 英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一。 一觉醒来,AI圈又变天了。 还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。 就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。 有网友震惊地说: 它回复的速度比我眨眼还快。 不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。 冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。 每秒500 tokens,写论文比你眨眼还快 LPU最突出的特点就是快。 根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。 华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。 如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。 还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。 结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。 Groq在速度上对其他AI模型的降维打击,让网友直呼,"AI推理界的美国队长来了"。 LPU,英伟达GPU的挑战者? 再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。 根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求: Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。 简单来说,对用户而言,最直观的体验就是"快"。 使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。 比如下图,华尔街见闻向Groq询问LPU和GPU的区别,Groq生成这个回答用时不到3秒,完全不会像GPT、Gemini那样出现显著的延迟。如果以英文提问,生成速度还会更快。 Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。 能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。 Groq创始人兼首席执行官Jonathan Ross在采访中,时时不忘给英伟达上眼药。 他此前对媒体表示,在大模型推理场景,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。 实时推理是通过经过训练的AI模型运行数据的计算过程,以提供AI应用的即时结果,从而实现流畅的最终用户体验。随着AI大模型的发展,实时推理的需求激增。 Ross认为,对于在产品中使用人工智能的公司来说,推理成本正在成为一个问题,因为随着使用这些产品的客户数量增加,运行模型的成本也在迅速增加。与英伟达GPU相比,Groq LPU集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。 他还强调,Groq的芯片,由于技术路径不同,在供应方面比英伟达更充足,不会被台积电或者SK海力士等供应商卡脖子: GroqChip LPU的独特之处在于,它不依赖于三星或SK海力士的HBM,也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。 不过,另有一些AI专家在社交媒体上表示,Groq芯片的实际成本并不低。 如人工智能专家贾扬清分析称,Groq综合成本相当于英伟达GPU的30多倍。 考虑到每张Groq芯片的内存容量为230MB,实际运行模型需要572张芯片,总成本高达1144万美元。 相比之下,8张H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元,年度电费约2.4万美元。三年总运营成本对比显示,Groq系统的运营成本远高于H100系统, 而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。 创始人为谷歌TPU设计者之一 相信未来2年能卖出100万个LPU 在今天互联网上一炮而红之前,Groq已经低调埋头研发7年多的时间。 公开资料显示,Groq成立于2016年,总部位于美国加州圣塔克拉拉山景城。公司创始人Jonathan Ross是前谷歌高级工程师,是谷歌自研AI芯片TPU的设计者之一。产品主管John Barrus曾在谷歌及亚马逊担任产品高管。 高管内唯一一位华裔面孔、副总裁Estelle Hong,在公司任职已有四年,此前曾供职于美国军队及英特尔。 就在去年8月,Groq也宣布了和三星的合作计划,表示其下一代芯片将在美国德克萨斯州三星芯片工厂采用4纳米工艺生产,预计量产时间为24年下半年。 展望下一代LPU,Ross相信GroqChip的能效将提高15到20倍,可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。 在去年底的采访中,Ross表示,考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力: 在12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- A股进入“分红实施季”,高股息个股名单来了..
- 英伟达发布面向中国市场RTX 4090 D显卡,起售近1..
- 住建部会议在京召开:大力支持刚性和改善型需求,..
- 道指再创历史新高,纳指转跌,中概雄起,离岸人民..
- 北上广深,集体逆转!
- 历史性一刻!顶级域名ai.com重定向到DeepSeek官网..
- 年内翻倍股又涨停!机构游资锚定跨年总龙头?..
- 中国移动反腐风暴持续:前高管魏明涉嫌违纪违法接..
- 中国央行连续第三个月增持黄金,1月黄金储备环比..
- 8只科创板股公布2023年上半年业绩快报..
- 人民币为何走弱?如何理解央行“稳汇率”?..
- 野村一线观察:3月美国政府停摆可能性大增,DOGE..
- 为什么中国黄金热潮可能即将开始?..
- 全国住房城乡建设工作会议:2025年要全面深化建筑..
- 普京称俄同意停火30天、俄美协议或重振俄天然气供..