DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化
rainbow @ 2025年02月06日 财经风云
DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化 AI寒武纪 从爆料中可以看出,RL尚处早期,性能提升远未见顶;跨领域测试泛化能力,拒绝"记忆投机";从语言模型到数学证明,RL正向高阶推理迈进。 刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招 事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 "持续增长",并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型) 以下我来帮大家还原一下Daya Guo与网友对话: 网友A @PseudoProphet: "大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?" 这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚: Daya Guo : "我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展" 划重点! "非常早期", "很长的路要探索", "今年会有显著进展"!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊! 紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心: 网友B @kaush_trip: "基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?" 这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上"死记硬背",换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢? Daya Guo : "我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力" "RL prompt 未覆盖的领域" 这句话是关键!这意味着 DeepSeek 不是用训练数据来"作弊"评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 "似乎具备" 这种严谨的措辞,也更显得真实可信 接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着"DeepSeek鲸鱼啦啦队"),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题: 网友C @teortaxesTex: "如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?" 这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程: Daya Guo : "660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero" 原来如此!我们现在看到的 R1-Zero 和 R1 是 "全新升级版",之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊 关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个"灵魂拷问": 网友D @jiayi_pirate: "3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????" 网友B @kaush_trip: "如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。" 这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。"慢工出细活" 用来形容 AI 模型训练,好像也挺合适的 最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题: 网友E @davikrehalt: "你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)" 形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜: Daya Guo : "我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型" 听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满! 写在最后 从Daya Guo的回应中可提炼三大信号: 技术定位:RL尚处早期,性能提升远未见顶; 验证逻辑:跨领域测试泛化能力,拒绝"记忆投机" 应用边界:从语言模型到数学证明,RL正向高阶推理迈进 本文来源:AI寒武纪,原文标题:《最新!DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- 超千家公司将被ST?真实数据来了,66股符合ST新规..
- 摩根大通:中国股票还能涨!5月加仓,然后耐心等..
- 白银为何如此强势?德银:即便考虑黄金和铜,也看..
- 如何看待这波“人形机器人”行情?..
- 过亿糖尿病患者迎新药,全球首个超长效胰岛素在华..
- Cliff Asness:这是一封写在2035年的十年资产配置..
- 中国主导身体,英伟达要做大脑,特斯拉“做整合”..
- 关税威胁抬升美元、重创美股,纳指跌近3%,英伟达..
- 中国互联网巨头中增长最快!大摩:美团剑指300港..
- 反转?诺贝尔经济学奖花落“AI反对者”,曾表示人..
- 中国央行连续第三个月增持黄金,1月黄金储备环比..
- 历史性一刻!顶级域名ai.com重定向到DeepSeek官网..
- 股市应该每年赚多少?
- A股进入“分红实施季”,高股息个股名单来了..
- AI届的拼多多来了!中国大模型黑马“异军突起”,..