DeepSeek火出圈,英伟达完了吗?
taiyang @ 2024年12月29日 财经风云
DeepSeek火出圈,英伟达完了吗? 信息平权 DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是"站在巨人的肩膀上"。真实逻辑应该是:榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4,而o3的训练成本大概率远超o1。从前沿探索角度看,训练所需算力只会越来越多。应用生态越繁荣,只会让训练投入的支付能力更强;而算力通缩,只会让同等投入买到更多训练Flops。 首先训练同一代模型所需算力每隔N个月就是指数级降低,这里面有算法进步、算力本身通缩、数据蒸馏等等因素,这也是为什么说"模型后发更省力"。援引下星球内一则评论:"就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分"。 DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是"站在巨人的肩膀上"。因此幻方在GPT4o发布7个月后,用1/10算力实现几乎同等水平,是合理的,甚至可以作为未来对同代模型训练成本下降速度的预测。但这里面依然有几个概念上的误解。 首先是"训练"范围上的混淆。幻方的论文明确说明了:"上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本。" 也就是星球内一位算法工程师说的"有点断章取义,幻方在训这个模型之前,用了他们自己的r1模型(对标openai o1)来生成数据,这个部分的反复尝试要不要算在成本里呢?单就在训练上做降本增效这件事,这不代表需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。" 随着Ilya说的"公开互联网数据穷尽",未来合成数据是突破数据天花板的重要来源,且天花板理论上足够高。相当于过去的预训练范式从卷参数、卷数据总量,到了卷数据质量,卷新的Scaling因子(RL、测试时间计算等),而算力只不过换了个地方,继续被其他训练环节榨干。 从目前各大实验室的实际情况看也是,OpenAI、Anthropic至今仍处于缺卡状态,相信幻方也是。看训练算力是否下降,不应该只看某代模型某次训练这种切面,而应该从"总量"以及"自上而下"去看,这些实验室的训练算力总需求是下降了吗?反而一直在上升。预训练的经济效益下降,那就把卡挪给RL post train,发现模型实现同等提升所需卡减少了,那就减少投入了吗?不会,真实逻辑应该是:榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4,而o3的训练成本大概率远超o1。从前沿探索角度看,训练所需算力只会越来越多。应用生态越繁荣,只会让训练投入的支付能力更强;而算力通缩,只会让同等投入买到更多训练Flops。 就好比幻方这次发布的模型,依然是LLM路线下,将MoE压榨到了极致。但相信幻方自己的推理模型r1(对标o1)也在探索r2/r3,这显然需要更多算力。而r2/r3训完,又被用来消耗大量算力为deepseek v4合成数据。发现没,pre-train scaling、RL scaling、test-time compute scaling三条线甚至还有正反馈。因此,只会在可获得最大资源的前提下,用最高效的算法/工程手段,压榨出最大的模型能力提升。而不会因为效率提升而减少投入,个人认为这是个伪逻辑。 对于推理,不必多说了,一定是上升。引用下星球内洪博的评论:DeepSeek-V3的出现(可能还包括轻量版V3-Lite),将支持私有部署和自主微调,为下游应用提供远大于闭源模型时代的发展空间。未来一两年,大概率将见证更丰富的推理芯片产品、更繁荣的LLM应用生态。 文章来源:信息平权,原文标题:《训练算力真的下降了吗?》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- AI应用迎爆发、私募整合潮.......2024年有哪些需..
- 蚂蚁金服拟在 科创板与港交所上市..
- 创业板十一周年:改革落地再迎新机遇..
- 不得利用算法流量造假、屏蔽信息!互联网信息服务..
- 下周重磅事件及指标影响前瞻(11月1日至11月7日)..
- 放下骄傲!微软是如何豪赌OpenAI的
- 劲爆!贝莱德想控股华平,但谈崩了..
- 中石油涨停史:不是在牛市就是在救市..
- AI需求火爆! SK海力士四季度意外盈利,HBM3增长..
- 中国7月规模以上工业企业利润同比增长4.1%,1—7..
- Figure创始人、“小马斯克”解读:人形机器人的“..
- 谁在被清仓?大股东拟清仓减持股名单全曝光..
- 突发!美国再度制裁24家中企,事涉参与南海建岛!..
- 央行辟谣SLF加息传闻 市场资金面短期仍从紧..