手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿
gangqin @ 2023年12月14日 财经风云
手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿 智东西 以小搏大!微软小语言模型Phi-2进一步抢占开源模型长尾市场。 智东西12月13日报道,昨日晚间,微软又亮出了小模型大招! 微软发布了27亿参数规模的小语言模型Phi-2,经研究人员测试,Phi-2在参数规模小于130亿的模型中展示了最先进性能。 从性能表现看,Phi-2在Big Bench Hard(BBH)、常识推理、语言理解、数学和编码基准测试中,其平均性能得分已经超过70亿、130亿参数规模的Mistral和Llama 2,在部分基准测试中超过谷歌的Gemini Nano 2。 Phi-2还有一大优势是,因为参数规模足够小,其可以在笔记本电脑、手机等移动设备上运行。 过去几个月间,微软研究院的机器学习基础团队陆续发布了小型语言模型(SLM)Phi系列。 其中,第一个模型为13亿参数规模的Phi-1,官方博客称,Phi-1在SLM中的Python编码方面表现最好,在Humaneva l和MBPP基准测试上尤甚。第二个模型为13亿参数规模的Phi-1.5,这个模型的重点为常识推理和语言理解能力。 现在微软发布的Phi-2能为研究人员探索机器可解释性、安全性改进或对各种任务的微调实验上提供帮助,目前,Phi-2已经从Azure AI Studio模型目录中开放给研究人员。 96块A100 GPU训练14天 参数规模仅27亿 一些大模型的参数规模达到数千亿的量级,使得其涌现出众多新兴能力,那么,是否可以通过改变训练策略等方式让更小的参数实现这些能力?微软的小型语言模型(SLM)系列或许是这一问题的答案。 Phi-2是一个基于Transformer架构的模型,具有下一个单词预测目标,在用于NLP和编码的合成数据集和Web数据集的混合上多次传递的1.4T tokens上进行训练。 Phi-2在96个A100 GPU上训练了14天,作为一个基础模型,其没有通过人类反馈强化学习(RLHF)进行对齐,也没有进行指令微调。 尽管如此,与经过调整的现有开源模型Llama 2-7B相比,研究人员观察到在避免生成有攻击性、有害和内容有偏差方面Phi-2的表现也不差。 研究人员根据ToxiGen的13个人口统计数据计算的安全评分,他们选择6541个句子的子集,并根据困惑度和句子"毒性"进行0到1之间的评分。分数高就说明,模型产生有攻击性、有害句子的可能性较小。 微软使用Phi-2打破了传统语言模型缩放定律,其中有两个关键环节: 第一是训练数据的质量对模型的性能至关重要。微软的模型训练数据包含专门创建的合成数据集,用于教授模型常识推理,还包括科学、心理等领域的常识。 研究人员还挑选了一些网络数据进一步扩充训练语料库,并基于内容的价值和质量进行了数据过滤。 此外,从13亿参数规模的Phi-1.5开始,微软的研究人员实现了规模化的知识转移,将Phi-1.5的知识嵌入到27亿参数的Phi-2中。这种方法不仅加速了训练收敛,而且提高了Phi-2的基准分数。 基准测试击败Llama 2、Mistral、Gemini Nano 2 微软总结了Phi-2在学术基准上与主流语言模型的性能表现对比。 其基准测试涵盖Big Bench Hard(BBH数据集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常识推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的语言理解数据集,GSM8k数学数据集和Humaneva l、MBPP的编码数据集等。 27亿参数规模的Phi-2,在BBH、常识推理、语言理解、数学、编码各项基准测评上都超过了70亿、130亿参数规模的Mistral和Llama 2。 相比于参数规模差距在25倍的700亿参数Llama 2,Phi-2在编码、数学等多步推理任务上表现更好。 此外,微软还比较了Phi-2与谷歌最近发布的Gemini Nano 2,谷歌发布的模型参数规模为32.5亿,Phi-2的性能表现部分优于Gemini Nano 2。 考虑到一些公共基准测试的数据可能会泄漏到训练数据中,微软对第一个模型Phi-1进行了广泛的净化研究以排除这种可能性。 基于判断语言模型的最佳方法是在具体用例上对其进行测试的考量,研究人员使用了多个微软内部专有数据集和任务评估了Phi-2,并再次将其与Mistral和Llama 2进行比较,其结果为,平均而言Phi 2优于Mistral-7B,后者优于70亿、130亿、730亿参数规模的Llama-2模型。 除了基准测试外,研究人员还测试了社区内的一些常用提示,他们观察到的表现也与基准测试的结果预期一致。 其中,研究人员测试了用于评估谷歌Gemini Ultra模型在解决物理问题方面能力的问题。 与Gemini的测试类似,研究人员进一步向Phi-2询问学生的错误答案,来确认它是否能识别出错误所在。 不过,从输出结果来看,这并不完全是与Gemini报告中描述的Gemini Ultra输出的同类比较,Gemini测评中学生的答案上传了手写文本的图像,Phi-2的测试采用的是原始文本。 结语:大模型时代,小模型仍在崛起 Phi-2的参数规模仅有27亿,但相比于参数规模更大的70亿、130亿模型,其性能表现仍不逊色。微软专注于小模型市场的布局,也印证了大模型时代小模型的价值。 微软与OpenAI的紧密合作,使得GPT模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的Phi系列,能进一步抢占开源模型长尾市场。不过从目前来看,Phi系列仅被允许用于研究目的。 从市场来看,越来越多的玩家开始探索在手机等移动设备上部署大模型,微软此举或许也会加速模型能力在端侧的应用。 本文作者: 程茜,来源:智东西 (ID:zhidxcom),原文标题:《手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- 政府工作报告:2025年GDP增长目标5%左右,CPI涨幅..
- 500亿量化帝国“幕后推手”:龙头券商财富业务“..
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 超千家公司将被ST?真实数据来了,66股符合ST新规..
- Cliff Asness:这是一封写在2035年的十年资产配置..
- 8月收官:沪指累计跌超5%,北向资金单月净卖出近..
- 股市应该每年赚多少?
- 美股三大股指收涨 纳指涨超1% 特斯拉十连涨..
- 摩根士丹利:高价科技股的杀盘接近尾声了..
- 降价40%!继阿里之后,腾讯也出手了…..
- 老黄携「超级GPU」炸场!E级AI超算性能飞升,买越..
- 不止“木头姐”!机构普遍“踏空”英伟达,现在开..
- 李超:科创板开板准备工作基本就绪..
- 达利欧:当下周期与1929-1945年世界局势何其相似..
- 黄金热席卷各国!全球Q1实物黄金消费大幅增长5%..