DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化
rainbow @ 2025年02月06日 财经风云
DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化 AI寒武纪 从爆料中可以看出,RL尚处早期,性能提升远未见顶;跨领域测试泛化能力,拒绝"记忆投机";从语言模型到数学证明,RL正向高阶推理迈进。 刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招 事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 "持续增长",并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型) 以下我来帮大家还原一下Daya Guo与网友对话: 网友A @PseudoProphet: "大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?" 这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚: Daya Guo : "我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展" 划重点! "非常早期", "很长的路要探索", "今年会有显著进展"!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊! 紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心: 网友B @kaush_trip: "基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?" 这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上"死记硬背",换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢? Daya Guo : "我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力" "RL prompt 未覆盖的领域" 这句话是关键!这意味着 DeepSeek 不是用训练数据来"作弊"评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 "似乎具备" 这种严谨的措辞,也更显得真实可信 接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着"DeepSeek鲸鱼啦啦队"),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题: 网友C @teortaxesTex: "如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?" 这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程: Daya Guo : "660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero" 原来如此!我们现在看到的 R1-Zero 和 R1 是 "全新升级版",之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊 关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个"灵魂拷问": 网友D @jiayi_pirate: "3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????" 网友B @kaush_trip: "如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。" 这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。"慢工出细活" 用来形容 AI 模型训练,好像也挺合适的 最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题: 网友E @davikrehalt: "你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)" 形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜: Daya Guo : "我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型" 听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满! 写在最后 从Daya Guo的回应中可提炼三大信号: 技术定位:RL尚处早期,性能提升远未见顶; 验证逻辑:跨领域测试泛化能力,拒绝"记忆投机" 应用边界:从语言模型到数学证明,RL正向高阶推理迈进 本文来源:AI寒武纪,原文标题:《最新!DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
推荐内容
- 普京称俄同意停火30天、俄美协议或重振俄天然气供..
- 美国政府关门危机解除?民主党领袖:关门只会让特..
- 摩根大通:美股这波跌势“到位了”,接下来大概率..
- 500亿量化帝国“幕后推手”:龙头券商财富业务“..
- 特朗普再度扬言“夺岛”,称:要派更多美军到格陵..
- 小金属狂潮——全球资源国觉醒及贸易摩擦下的看涨..
- 叛军突袭逼停万吨锡矿,刚果矿场紧急撤离!沪锡今..
- A股头条:央行发声!择机降准降息;育儿补贴真的..
- 关税威胁加剧,标普跌入调整区间,纳指跌近2%,英..
- 普京表态支持俄乌停火提议但诸多细节仍待商讨,泽..
- 突破3000美元/盎司!金价狂飙,产业链上演“冰火..
- 美财长贝森特:市场“些微”波动不足为虑,“排毒..
- 美股三大指数重挫!标普陷入技术回调,黄金突破3..
- 融资余额刷新2015年历史峰值,连续三日破1.9万亿..
- 南下资金疯狂,跨境ETF份额大涨
热点阅读
- 特斯拉全球销量“雪崩”,马斯克的“政治豪赌”让..
- 实探Manus总部,真“颠覆”还是假“狂欢”?..
- 段永平谈美股暴跌:投资以来第一次享受空仓的快感..
- 蛇年最疯“妖股”崩了?谁是空头王..
- 桥水中国:如果没有重大改革催化剂,欧洲资产持续..
- 美联储“重大预告”
- 央行等五部门:支持民营企业通过资本市场发展壮大..
- “制造衰退”?特朗普和贝森特几乎“明牌”了,下..
- 李嘉诚228亿美元交易的幕后……
- A股头条:华为正式组建医疗卫生军团,曾毓群出手..
- 突破3000美元/盎司!金价狂飙,产业链上演“冰火..
- AI芯片需求依旧坚挺!台积电2月营收再加速,同比..
- Manus刷屏!全球首个AI Agent,中国制造,它能直..
- 中国驻美大使谢锋:“外资撤离中国论”宣告破产 ..
- 美国衰退担忧笼罩,盘前三大期指跌幅扩大,特斯拉..