Scaling Law 又一次性感了吗?
laodang @ 2024年03月11日 财经风云
Scaling Law 又一次性感了吗? 机器之能 Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。 自 OpenAI 发布 Sora,业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节,但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即,支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively),随着训练计算量增加,视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。 Scaling Law 是什么? 1、针对语言模型的 Scaling Law 来自 OpenAI 2020 年发布的论文,其释义可简要总结为:随着「模型大小」、「数据集大小」、「(用于训练的)计算浮点数」的增加,模型的性能会提高。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。 ① 模型性能受三个因素共同影响,其中计算量对性能的提升最为显著,其次是模型参数,而数据集大小的影响相对较小。在资源不受限制的情况下,性能提升最为显著。 ② 在有限的计算资源下,为了获得最佳性能,可以通过训练大型模型并在其达到最佳状态前提前终止训练。 ③ 大型模型在样本效率上更优,它们可以用较少的数据和优化步骤达到与小型模型相同的性能。在实践中,应优先考虑训练大型模型。 2、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。 ① 在大语言模型的训练中,交叉熵损失是评估模型预测准确性的常用指标,它衡量模型输出与实际情况的差距。损失越低,预测越精确,训练目标就是降低这一损失。 3、作为另一个代表性研究,Google DeepMind 团队的 Hoffmann 等人同样提出了一种用于指导 LLMs 计算最优训练的替代 Scaling Law 形式。 ① 在有限的浮点运算(FLOP)预算下,损失函数显示出最佳性能点:对于较小的模型,增加数据量以训练较大的模型能提升性能;对于较大的模型,使用更多数据训练较小的模型同样能带来改进。 ② 为了实现计算成本的最优,模型的规模和训练数据量(token 数)应保持成比例的增长,即模型规模翻倍时,训练数据量也应相应翻倍。 ③ 在训练大型语言模型时,应重视数据集的扩充,但只有在数据质量高的情况下,扩大数据集的优势才能得到充分发挥。 4、总体而言,给定计算预算的增加,OpenAI 的 Scaling Law 更倾向于在模型大小上分配更大的预算,而 Chinchilla 版则认为两个大小应该等比例增加。 Scaling Law 带来的争议有哪些? 围绕 Scaling Law 的讨论中,「模型是否越大越好?」的问题在近几年反复被提及,各方观点莫衷一是。科技博主 Dwarkesh Patel 曾撰文梳理了社区中围绕 Scaling Law 的争议与讨论的关键问题,并对支持或质疑的声音进行了解读分析。 1、现有数据会被用光吗? ① 积极观点认为,到 2024 年,高质量的语言数据将会用尽。根据 Scaling Law,我们需要的数据量比现有的多出 5 个数量级,这意味着现有数据可能只有真正需要的 10 万分之一。尽管可以通过提高数据利用效率的方法,如多模态训练、循环利用数据集、课程学习等,但这些方法难以满足 Scaling Law 指数式增长的数据需求。 ② 消极观点认为,不应该因为数据短缺质疑 Scaling Law 的可行性。LLM 在处理数据时效率不高,但如果合成数据有效,我们不应该对继续 Scaling 持怀疑态度。有研究者对 self-play 和合成数据的方法持乐观态度,认为这些方法可能有效,并且有丰富的数据来源和生成数据的方法。 2、Scaling Law 真的起过作用吗? ① 积极观点认为,在各种基准测试中,模型的性能已经稳步提升了 8 个数量级,即使在计算资源增加的情况下,模型性能的损失仍然可以精确到小数点后多位。GPT-4 的技术报告表明,可以通过较小的模型预测最终模型的性能,这表明 Scaling Law 的趋势可能会持续。 ② 消极观点则质疑 Scaling Law 是否能说明模型的泛化能力有实质提升。有声音指出现有的基准测试更多地测试模型的记忆力而非智能程度,并且模型在长期任务上的表现并不出色。例如,GPT-4 在 SWE-bench 测试中的得分很低,表明模型在处理长时间跨度的复杂信息时存在问题。 3、模型真的能理解世界吗? ① 有研究表明,学习大量代码能够增强 LLM 的语言推理能力,显示出模型能够识别并利用语言和代码中的通用逻辑结构。梯度下降作为一种优化策略,旨在通过数据压缩来深入理解信息,从而提高模型的预测能力。 ② 积极观点认为,为了预测下一个 Token,LLM 必须学习万物背后的规律,理解 Token 之间的联系。例如,通过学习代码可以提高 LLM 的语言推理能力,这表明模型能够从数据中提炼出通用的思考模式。 ③ 消极观点认为,智能不仅仅是数据压缩,即使 LLM 通过 SGD 过程实现了数据压缩,这并不能证明它们具备与人类相似的智能水平。 ④ 还有一种观点认为,大模型存在方向上的路线错误...... 文章来源:机器之能 原文标题《Scaling Law 又一次性感了吗?》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 政府工作报告:2025年GDP增长目标5%左右,CPI涨幅..
- 500亿量化帝国“幕后推手”:龙头券商财富业务“..
- 央行旗下媒体解读信贷数据:单月数据波动不足虑,..
- 跳水40美元!金价跌至疫情以来新低..
- “一切都将归零”!麦格理:科技驱动型通缩时代将..
- 春节前,量化基金究竟发生了什么?..
- 如何看待这波“人形机器人”行情?..
- 达利欧:当下周期与1929-1945年世界局势何其相似..
- 商务部:1月20日以来已有792万名消费者申请了107..
- 纳指两周重挫近10%,芯片股遭大举做空..
- 郭树清:发挥险资稳健优势 加大投资优质上市公司力..
- 不得利用算法流量造假、屏蔽信息!互联网信息服务..
- 浪潮信息百亿资金搏杀背后:游资抄底活跃 外资甩..
- 美联储内部展开激辩 博斯蒂克重申:预计还会再加..