如果 AI 不能继续变聪明了,我们该怎么办
@阑夕:GPT-5 发布之后,「纽约客」刊出一篇长文评论,充满了这本杂志特有的那种讽刺味儿,就差没把「眼见他起高楼,眼见他宴宾客,眼见他楼塌了」写到脸上了,我手搓翻译了全文,作为睡前读物给你们感受一下。 如果 AI 不能继续变聪明了,我们该怎么办 – by Cal Newport 所有和 AI 相关的兴奋和焦虑,源头都能追溯到 2020 年的 1 月。 当时,OpenAI 的研究团队发布了一份 30 页的技术报告,题为「神经语言模型的扩展规律」(Scaling Laws for Neural Language Models),撰写者包括后来创办了 Anthropic 的 Dario Amodei,他们试图摸清一个生僻却重要的问题:如果持续增强语言模型的训练规模,它的性能会发生怎样的变化? 那会儿绝大多数机器学习的专家都认为,语言模型达到一定规模后就会开始背题,从而在实际交互中变得不太可用。 但是 OpenAI 的这篇论文提出了截然相反的判断:语言模型越大,智力就会越高,甚至可以说,这种进化可能遵循类似「幂率分布」的法则,呈现出一条类似曲棍球棒的上升曲线。 换句话说,只要不断构建更大规模的语言模型,并用更大的数据集进行训练,那么模型就会一直变强下去。几个月后,OpenAI 发布了 GPT-3,它的规模是 GPT-2 的十倍,性能也大幅提高,似乎验证了「扩展定律」(Scaling Laws)的存在。 一夜之间,那种曾被视为遥不可及的通用人工智能(AGI)—— 在各项任务里都能表现得和人类一样好 —— 似乎近在咫尺了,如果「扩展定律」成立,AI 公司只要向语言模型不断投入资金和算力就能实现通用人工智能。 随后一年里,Sam Altman 发布了一篇题为「万物摩尔定律」的博客文章,认为 AI 将接管人类从事的一般向工作,并为持有资本的人创造难以想象的财富。 他是这么写的:「这场技术革命不可阻挡。世界将发生剧烈变化,我们也必须进行同样剧烈的政策调整,才能公平分配这些财富,并让更多人过上他们想要的生活。」 「扩展定律」必将通向通用人工智能,这成了 AI 界的信仰。2022 年,纽约大学心理与神经科学教授 Gary Marcus 对 OpenAI 的那篇论文提出批评,认为「扩展定律」只是一个观察的结果,而非引力这种客观规律。 这下子 Gary Marcus 捅了马蜂窝,据他所说,自己从来没有因为写了一篇文章而被那么多声名显赫的大佬嘲笑过,从 Sam Altman、Greg Brockman 到 Yann LeCun、Elon Musk,这种待遇实际上把他从机器学习这个圈子里驱逐了出去。 后来发生的故事大家都很熟悉了,ChatGPT 成为了史上用户增长最快的产品,2023 年 3 月,GPT-4 的发布让 AI 性能的提高变得匪夷所思,以致于微软专门为此新写了一篇论文,标题是梦幻般的「通用人工智能的火花」,在接下来的一年里,涌入 AI 行业的风险投资增加了 8 成。 然而,进展的放缓同样来得猝不及防。GPT-4 后的 2 年多时间里,OpenAI 没有发布跨代际的模型,改为专注于一些专业化的版本更新,让普通人难以跟进,业内也开始有声音质疑「扩展定律」的失效。 OpenAI 的联合创始人 Ilya Sutskever 去年曾对路透社表示:「2010 年代是扩展的年代,现在我们又回到了探索与发现的年代,大家都在寻找下一个突破点。」 同时期在 TechCrunch 发布的一篇报道也透露了这种变得普遍起来的情绪:「如今大家好像又承认了,单靠更多的算力和数据来训练模型不能造出一个全知全能的赛博之神。」 不过,这些声音很多时候还是会被那些更为惊人的头条新闻淹没掉,像是 Dario Amodei 认为「AI 几乎已经在所有的智力型任务上超过人类,未来五年内至少会有一半的初级文职工作会被代替」,而 Sam Altman 和 Mark Zuckerberg 都在今年夏天宣称距离开发出「超级智能」只差临门一脚。 就在上周,OpenAI 终于发布了 GPT-5,所有人都期待它能带来 AI 能力的又一次重大飞跃。在早期评测中,一些表选确实可圈可点。 比如科技博主 Mrwhosetheboss 要求 GPT-5 创建一款以宝可梦作为棋子的国际象棋之后,得到的结果很明显比 GPT-4 mini-high 要好,他还发现 GPT-5 能为他的 YouTube 频道写出比 GPT-4o 更优秀的脚本,但他也意识到,GPT-4o 依然能在生成图片的技能上打败 GPT-5,而且 GPT-5 也不是完全没有幻觉。 几小时内,Reddit 的 r/ChatGPT 版块里就充满了失望的氛围,一个贴子把 GPT-5 称作「史上最垃圾的付费产品」,在一次 AMA 问答里,前来做客的 Sam Altman 和 OpenAI 的其他工程师全程处于挨批的位置,不得不回应各种尖锐之辞。 Gary Marcus 终于舒服了,他给 GPT-5 的发布会盖棺定论:姗姗来迟、炒作过度、失望透顶。 GPT-5 的问世让人们很难再去相信 AI 界的夸张预测,反而让 Gary Marcus 这样的批评者变得温和起来。他们认为 AI 固然重要,但不会很快改变我们现有的生活,大家应该接受现实,那就是 AI 在短期内不可能变得更好了。 OpenAI 不是故意等了将近 2 年半的时间才发布 GPT-5 的,根据 The Information 的报道,去年春天,Sam Altman 就告诉员工下一代模型 —— 代号「猎户座」—— 将明显优于 GPT-4。然而,到了秋天,事情就变得不那么乐观了:「尽管新模型的表现的确超过了前代,但相比 GPT-3 到 GPT-4 的飞跃,这次的提升幅度要小得多。」 「猎户座」的失利加剧了那种日益蔓延的怀疑:「扩展定律」并非真的定律。如果构建越来越大的模型所产生的回报开始递减,AI 公司就需要新的策略来训练它们的模型产品。 很快的,AI 公司将目光转向了「后训练」(Post-Training Improvements)。语言模型通常先要经过「预训练」,也就是通过吸收整个互联网的信息来增强智能。但也可以在此之后继续优化,帮助模型更好的利用已经学会的知识,这就是「后训练」,也被称作强化学习,用来指导模型在特定类型的任务上表现更好,或者教会模型在遇到困难时懂得消耗更多 Tokens 进行解题。 这就好比是造车:「预训练」相当于把车生产出来,「后训练」则是对车辆进行改装。OpenAI 的那篇论文提到过,「预训练」越多,造出来的车就越优秀,如果 GPT-3 是轿车,GPT-4 就是跑车。但当这种进步受阻后,行业里的工作重点就切换到让已有车辆的性能变得更好,科学家也开始做起了技师的活儿。 科技巨头们也迅速的圆润起来,开始对「后训练」寄予厚望,微软的掌门 Satya Nadella 去年表示大家正在看到一个新的「扩展定律」冉冉升起,投资者 Anjney Midha 也表示「扩展定律」的第二条命启动了。 很快,OpenAI 于去年年底发布了 o1,通过「后训练」为模型赋予了推理和编程能力,随即又连续发布了 o3-mini、o3-mini-high、o4-mini、o4-mini-high 和 o3-pro,每个模型都采用了量身定制的「后训练」组合。 同行也都在做出类似的转身。Anthropic 在今年 2 月发布的 Claude 3.7 Sonnet 里尝试了「后训练」改进方法,并将其作为 Claude 4 系列模型的核心。 Elon Musk 的 xAI 在 Grok 3 之前仍在追求「扩展定律」,其在训练时消耗了惊人的 10 万块 H100 芯片 —— 这比 GPT-4 高出好几倍 —— 但当 Grok 3 依然没能显著超过竞争对手后,xAI 也选择了「后训练」来开发 Grok 4。 GPT-5 可以说是这种发展轨迹的延续,它更像是对一系列「后训练」产品的整合,而不是一款脱胎换骨的全新模型。 那么问题来了,新的方法能否让我们重返 AGI 之路?OpenAI 在 GPT-5 的发布中展示了几十张图表,用于量化模型在多语种编程、多模态推理等领域的进步,这没毛病,但我们都还记得,GPT-4 的发布时可不需要这么多的图表,每个人使用几分钟后就能感受到它是多么不可思议的创造。 部分基准测试本身也值得怀疑。自从 o1 问世,AI 公司就在宣传推理模型的意义。但在今年 6 月,苹果发布了一篇论文「思维的错觉」(The Illusion of Thinking),发现所谓先进的推理模型在任务复杂度超过一定阈值后,便会产生性能崩溃的现象,从 o3-mini、到 Claude 3.7 Sonnet 以及 DeepSeek-R1,无一幸免。 上周,亚利桑那州立大学的研究团队得出了一个更直白的结论:推理能力是一种假象,一旦出题超过训练范围就会迫使模型宕机,而且在测试题库里拿到高分,和真正解决现实问题之间,存在着巨大的鸿沟。 Gary Marcus 还在幸灾乐祸:「我没听到哪家公司会说 2025 年的模型比 2024 年的模型更好用,测试的分数可不能拿来提高工作效率。」是的,把你的凯美瑞开进改装店可以带来很大的性能提升,但再怎么改,它也变不成法拉利。 我让包括 Gary Marcus 在内的几个怀疑论者预测 AI 在未来几年能对经济产生多大的影响,其中一个科技分析师 Ed Zitro 断言 AI 只是一个 500 亿美金的市场,而非万亿级别,Gary Marcus 说得更刺耳,「好的话是 500 亿,不好的话也就 100 亿。」 语言学教授 Emily Bender 则说,「市场的大小取决于有多少管理层会被这项技术蒙蔽双眼,并改造工作岗位,这样的情况越普遍,普通人的处境也就越糟糕。」 他们的观点过去常被当作是「落伍的老头儿老太太们对着天上的云朵哈气」—— 这来自一条真实的推文评论 —— 公众更加愿意倾听科技公司的宏大愿景。或许,这种局面正在扭转。 如果他们对于 AI 的悲观预测是对的,那么未来会以渐进而非突变的方式降临,很多人会用 AI 来查询信息、撰写报告,编程和学术等领域可能会走得稍微快一点,少数职业 —— 比如配音、文案 —— 基本消失,但 AI 未必会彻底扰乱整个就业市场,而「超级智能」这样的夸张概念也不会再有太大的信徒市场。 继续买单 AI 这件事情或许也有危险。目前,美股总市值里大概有 35% 都集中在 7 巨头身上,这关联到很多人的养老金,而 7 巨头在过去 18 个月里总计往 AI 砸进了 5600 亿美金的资本支出,而收入却只有 350 亿,这太疯狂了。 不过,即使是温和派,也在提醒人类不要就此过于轻视 AI。Gary Marcus 讨厌语言模型,但他也相信,通过别的技术路线,通用人工智能还是有机会在 2030 年实现。趁着这段喘息期,人类应当提前做好准备,制定有效的监管措施,想清楚伦理问题。 对了,在 OpenAI 那篇关于「扩展定律」的论文附录里,有一个「注意事项」的篇章,后来的报道往往忽略了此处。作者写道:「目前我们并没有得出完善的理论体系,模型规模和算力供给之间的扩展关系非常神秘。」事实证明,「扩展定律」有时有效,有时无效,终究不是铁律,而教会机器学会思考这一事业,仍然充满谜团。 我们是该少一些傲慢,多一些谨慎。 |