Ilya 提出了一个观点:LLM 所做的远不止根据概率预测下一个单词

tiankong @ 2023年12月01日  世界观

年初英伟达老黄和Ilya Sutskever的访谈的一段,Ilya 提出了一个观点:LLM 所做的远不止根据概率预测下一个单词,它同时也在学习我们现实世界的模型,文本就是实际的一个投影。以下是这段视频的文本:
你可以这样理解:当我们训练一个庞大的神经网络,让它准确预测互联网上各式各样文本中的下一个单词时,我们实际上是在学习一个"世界模型"。乍一看,好像我们只是在学习文本中的统计关联性。但事实上,为了精确地学习文本中的统计关联并有效地压缩这些信息,神经网络实际上学习到的是产生这些文本的过程的某种表示。
这些文本实际上是现实世界的一种投影。外面的那个世界,就像是在这段文本上投下了自己的影子。因此,神经网络所学习到的,不仅仅是文字信息,还包括了更多关于世界、人类情感状态、他们的希望、梦想、动机、相互作用以及我们所处的环境等方面的知识。神经网络学到的是这些信息的压缩、抽象且实用的表达形式。这就是通过准确预测下一个单词所获得的知识。
更进一步,预测下一个单词的准确度越高,我们就能在这个过程中获得更高的保真度和分辨率。这就是预训练阶段的任务。然而,这个阶段并没有规定我们希望神经网络展现的特定行为。你看,一个语言模型,它真正试图做的是回答以下问题:如果我在互联网上随机找到一段文本,它以某个前缀、某个提示开始,它会补全成什么?如果你只是随机地在互联网上找到一段文本。
但这与我想要一个诚实的助手,一个有帮助的助手,一个会遵循某些规则而不违反它们的助手,是不同的。这需要额外的训练。这就是我们进行微调和强化学习的阶段,这种学习来自人类教师以及其他形式的 AI 辅助。这不仅仅是来自人类教师的强化学习,也包括人类和 AI 合作的强化学习。我们的教师正在与 AI 一起工作,教导我们的 AI 如何行动。

但是在这里,我们并没有教授它新的知识,我们正在教导它,与它交流,告诉它我们希望它成为什么。这个过程,也就是第二阶段,同样极其重要。我们在第二阶段做得越好,这个神经网络就会越有用,越可靠。所以,第二阶段也非常重要,这是在第一阶段的基础上,尽可能多地从世界的投影中了解世界,这是接下来的任务。

(视频)