本文作者:访客

Ilya最新访谈揭秘,人类情感成为AI缺失的终极算法

访客 2025-11-26 15:01:44 76938 抢沙发
在最新访谈中,Ilya指出人类的情感对于人工智能的发展至关重要,他认为情感并非人类的累赘,而是AI缺失的“终极算法”,Ilya强调,情感智能是推动AI进步的关键要素,情感的理解与模拟对于机器实现更高层次的自主学习和决策至关重要,此次访谈揭示了情感在人工智能领域的重要性,并展望了未来AI与情感融合的发展前景。

这篇文章基于 Dwarkesh Patel 与 Ilya Sutskever 的深度对话。

Ilya最新访谈揭秘,人类情感成为AI缺失的终极算法

Ilya 是现代 AI 发展的关键人物,他是 Hinton 的学生,2012年发布的 AlexNet,是过去十几年里人工智能浪潮的开始。

他也是 OpenAI 的联合创始人,负责 GPT 系列模型,并在2023年主导了董事会对 CEO Sam Altman 的突袭式罢免,且亲自通知 Altman 被解职。

2024 年Ilya离开 OpenAI,创立SSI(Safe Superintelligence Inc.),继续探索对“安全 AGI”的研究。

在这次访谈中,Ilya 深入探讨了当前 AI 模型的局限性、未来的技术路径以及“安全超级智能”的真正含义。

核心观点

本次对话的核心围绕着“当前 AI 的局限”与“通往超级智能的新路径”展开。Ilya 认为:

模型表现与实际能力的脱节: 当前模型在评估测试(Evals)中得分极高,但在实际应用中却常犯低级错误(如修复 Bug 时引入新 Bug)。这是因为强化学习(RL)被过度优化用于“刷榜”,导致模型像一个只会做题的竞赛选手,缺乏真正的“品位”和判断力。

从扩展到研究的范式转移: 2012-2020 年是研究时代,2020-2025 年是扩展时代。现在,单纯扩大规模的边际效应递减,我们需要回到“研究时代”,寻找新的数据配方和训练方法。

人类智能的秘密——价值函数: 人类之所以能通过极少的数据学会复杂技能(如驾驶),是因为我们拥有强大的内部“价值函数”(即直觉和情感)。这指导我们在没有明确外部奖励时也能自我纠正。这是 AI 目前缺失的关键。

超级智能的定义: 真正的超级智能不是一个存储了所有知识的静态系统,而是一个拥有极高样本效率的“超级学习者”。它能像人类一样通过少量接触就掌握任何工作。

安全与对齐: 为了安全,我们必须逐步展示 AI 的力量以警醒世人。最终的目标是构建一个“关爱有感知生命”的 AI。

Takeaways

A. 为什么现在的模型看起来很“聪明”却又很“笨”?

Ilya 提出了一个深刻的类比:“竞技程序员 vs. 真正的开发者”。

• 现象: 模型在编程竞赛题上表现超人,但在实际修 Bug 时却往往陷入死循环。

• 原因: 预训练使用了所有数据,这很好;但强化学习(RL)需要人为选择训练环境。为了让模型在评估(Evals)中好看,研究人员无意中让模型“过拟合”了考试题目。

• 结果: 模型像是一个练了 10,000 小时的竞技编程选手,精通所有解题套路,但缺乏那个练了 100 小时却拥有“灵性”和“品味”的学生的泛化能力。

B. 破解人类学习的奥秘:样本效率与价值函数

人类学习效率远超 AI。青少年只需 10 小时就能学会开车,且无需成千上万次的碰撞测试。Ilya 认为这背后的关键在于:

• 进化先验: 进化给了我们视觉和运动的先验知识,但数学和编程是新事物,人类依然学得很快,说明这不仅是先验的问题,而是人类有更好的“机器学习算法”。

• 价值函数(Value Function): 这是人类的核心优势。我们的情感和直觉构成了强大的价值函数。当我们搞砸时,不需要等到最终结果,我们内心会立即感到“不对劲”并自我纠正。目前的 AI 缺乏这种内在的、鲁棒的价值评估机制。

C. SSI 的战略:直通超级智能 vs. 逐步发布

Ilya 的思维在过去一年发生了转变:

过去: 倾向于秘密研发,直到安全后再发布(直通模式)。现在: 倾向于逐步发布。因为 AGI 难以想象,只有让公众、政府和竞争对手亲眼看到 AI 的强大力量,大家才会真正重视安全问题,从而形成一种“安全军备竞赛”的良性合作。目标: 构建一个能通过“持续学习”掌握经济中所有工作的系统。

D. 什么是“研究品味”?

作为 AI 领域的传奇人物,Ilya 分享了他做研究的审美标准:正确地以人为镜: 借鉴大脑的原理,但要区分“皮毛”(如大脑沟回)和“本质”(如神经元连接、从经验中学习)。美与简单: 好的理论容不下丑陋。必须同时具备美感、简洁性、优雅以及生物学上的合理性。自上而下的信念: 当实验数据因 Bug 而失败时,只有坚定的“自上而下的信念”(相信这在原理上必须行得通)才能支撑研究者继续寻找真相。

以下为播客原文:

Ilya Sutskever:你知道什么很疯狂吗?这一切都是真实的。

Dwarkesh Patel:指什么?

Ilya Sutskever:你不觉得吗?所有这些 AI 的东西,所有湾区发生的事……它正在发生。这难道不像是科幻小说里的情节吗?

Dwarkesh Patel:另一件疯狂的事情是,“慢速起飞(slow takeoff)”的感觉是多么正常。以前觉得如果我们将 GDP 的 1% 投入到 AI 中,会感觉像是一件惊天动地的大事,而现在感觉只是……

Ilya Sutskever:事实证明,我们适应得很快。但也因为它有点抽象。这意味着什么呢?意味着你在新闻里看到某某公司宣布了某某金额的投资。你看到的仅此而已。到目前为止,还没有以其他方式真正感受到它。

Dwarkesh Patel:我们应该从这里开始吗?我觉得这个讨论很有意思。

Ilya Sutskever:当然。

Dwarkesh Patel:我认为你的观点是,从普通人的角度来看,没有什么太大的不同,即使到了“奇点(singularity)”,这一点也会继续成立。

Ilya Sutskever:不,我不这么认为。

Dwarkesh Patel:好的,这很有趣。

Ilya Sutskever:我指的“感觉没什么不同”,是说某某公司宣布了一笔难以理解的巨额投资。我不认为有人知道该怎么应对这个消息。

但我认为 AI 的影响将会被感受到。AI 将渗透到整个经济中。会有非常强大的经济力量推动这一点,我认为这种影响将会被非常强烈地感受到。

Dwarkesh Patel:你预计这种影响什么时候会出现?我觉得现在的模型看起来比它们产生的实际经济影响要聪明得多。

Ilya Sutskever:是的。这是目前关于模型最令人困惑的事情之一。如何调和它们在评估测试(evals)中表现如此出色这一事实?你看那些评估,你会想:“这些测试挺难的。”它们做得很好。但经济影响似乎大大滞后。这很难解释,模型怎么能一方面做这些惊人的事情,另一方面又在某些情况下重复犯错?

举个例子,假设你用“凭感觉写代码(vibe coding)”做点什么。你去某个地方,然后遇到了一个 bug。你告诉模型:“请修复这个 bug 好吗?”模型说:“天哪,你太对了。我有个 bug。让我去修一下。”然后它引入了第二个 bug。

然后你告诉它:“你有这个新的第二个 bug,”它告诉你:“天哪,我怎么会这样?你又对了,”然后它又把第一个 bug 带回来了,你就在这两个 bug 之间来回折腾。这怎么可能?我不确定,但这确实表明有一些奇怪的事情正在发生。

我有两个可能的解释。比较异想天开的解释是,也许强化学习(RL)训练让模型变得有点过于一根筋和狭隘,有点过于无意识,尽管它也让它们在其他方面变得有意识。正因为如此,它们做不了基本的事情。

但还有另一种解释。回想人们做预训练(pre-training)的时候,“用什么数据训练”这个问题是有答案的,因为答案是“所有数据”。当你做预训练时,你需要所有的数据。所以你不必纠结是用这个数据还是那个数据。

但是当人们做 RL 训练时,他们确实需要思考。他们说:“好的,我们要为这个东西做这种 RL 训练,为那个东西做那种 RL 训练。”据我所知,所有公司都有团队专门生产新的 RL 环境并将其添加到训练组合中。问题是,那些是什么?自由度太高了。你可以生成的 RL 环境种类繁多。

你可以做的一件事——我认为这是无意中发生的——是人们从评估测试(evals)中获取灵感。你会说:“嘿,我希望我们的模型在发布时表现非常好。我想让评估结果看起来很棒。什么样的 RL 训练能在这个任务上有所帮助?”我认为这种情况确实发生了,它可以解释很多正在发生的事情。

如果你将此与“模型泛化能力实际上不足”结合起来,这就有可能解释我们看到的很多现象,即评估性能与实际现实世界性能之间的脱节,甚至我们今天都不太理解这意味着什么。

Dwarkesh Patel:我喜欢这个观点,即真正的“奖励黑客(reward hacking)”是那些过于关注评估的人类研究员。

我认为有两种方式来理解或思考你刚刚指出的问题。一种是,如果仅仅通过在编程竞赛中变得超人,并不能自动让模型变得更有品味、更懂得如何判断去改进代码库,那么你就应该扩展环境套件,这样你就不只是测试它在编程竞赛中的表现。它还应该能够为 X、Y 或 Z 制作最好的应用程序。

另一种,也许这就是你暗示的,是问:“为什么在编程竞赛中成为超人,却没有让你在更广泛的意义上成为一个更有品味的程序员呢?”也许我们要做的不是不断堆叠环境的数量和多样性,而是找出一个方法,让你能从一个环境中学习,并提高你在其他事情上的表现。

Ilya Sutskever:我有个关于人类的类比可能很有帮助。既然你提到了,我们以竞技编程为例。假设有两个学生。其中一个决定要成为最好的竞技程序员,所以他们会在那个领域练习 10,000 小时。他们会解决所有问题,背诵所有证明技巧,并非常熟练地快速且正确地实现所有算法。通过这样做,他们成为了最棒的人之一。

二号学生想,“哦,竞技编程很酷。”也许他们只练习了 100 小时,少得多,但他们也做得很好。你认为哪一个在以后的职业生涯中会做得更好?

Dwarkesh Patel:第二个。

Ilya Sutskever:对。我认为这基本上就是正在发生的事情。模型更像第一个学生,甚至程度更甚。因为我们会说,模型应该擅长竞技编程,所以让我们把有史以来所有的竞技编程问题都拿来。然后我们做一些数据增强,这样我们就有更多的竞技编程问题,我们在那上面训练。现在你有了一个很棒的竞技程序员。

用这个类比,我想就更直观了。是的,好吧,如果它训练得那么好,所有不同的算法和所有不同的证明技巧都触手可及。而且更直观的是,有了这种程度的准备,它不一定能泛化到其他事情上。

Dwarkesh Patel:但是,对于第二个学生在做那一两百小时的微调(fine-tuning)之前在做什么,这有什么类比吗?

Ilya Sutskever:我觉得他们有“那个感觉”(it)。那个“灵性”因素。当我还是本科生的时候,我记得有个跟我一起学习的学生就是这样,所以我知道这种人是存在的。

Dwarkesh Patel:我认为区分“那个感觉”和预训练所做的事情很有趣。理解你刚才说的“不必在预训练中选择数据”的一种方式是,这实际上与 10,000 小时的练习没有什么不同。只是你是免费获得了那 10,000 小时的练习,因为它已经在预训练分布中的某个地方了。但也许你是在暗示,实际上从预训练中获得的泛化并没有那么多。预训练中有太多的数据,但它不一定比 RL 泛化得更好。

Ilya Sutskever:预训练的主要优势在于:A,量非常大;B,你不必费尽心思去想把什么数据放入预训练中。它是非常自然的数据,它确实包含了人们做的很多事情:人们的思想和很多特征。它就像是人们投射在文本上的整个世界,预训练试图利用海量数据来捕捉这一点。

预训练很难推理,因为很难理解模型依赖预训练数据的方式。每当模型犯错时,会不会是因为偶然在预训练数据中没有得到足够的支持?“预训练支持”也许是一个宽松的术语。我不知道我是否能在这方面补充更多有用的东西。我不认为预训练有人类模拟。

Dwarkesh Patel:有些人提出了关于人类类比预训练的设想。我很好奇你对它们为什么可能是错的有什么看法。一种是把人生的前 18 年、15 年或 13 年看作预训练,那时候他们不一定有经济生产力,但他们在做一些让他们更好地理解世界等等的事情。另一种是把进化看作是进行了 30 亿年的某种搜索,然后产生了一个人类生命的实例。

我很好奇你是否认为这其中任何一个类似于预训练。如果不是预训练,你会如何看待人类的终身学习?

Ilya Sutskever:我认为这两者与预训练都有一些相似之处,预训练试图扮演这两者的角色。但我认为也有一些很大的不同。预训练数据的数量是非常非常惊人的。

Dwarkesh Patel:是的。

Ilya Sutskever:不知何故,一个人,即使过了 15 年,只接触了预训练数据的一小部分,他们知道的要少得多。但无论他们知道什么,不知何故他们理解得更深。在这个年龄,你已经不会犯我们的 AI 犯的那种错误了。

还有一件事。你可能会说,这会不会像进化?答案是也许。但在这种情况下,我认为进化实际上可能更有优势。我记得读过这个案例。神经科学家了解大脑的一种方式是研究大脑不同部位受损的人。有些人有你能想象到的最奇怪的症状。这实际上真的很有趣。

我想到了一个相关的案例。我读到过一个人,有些脑损伤,中风还是事故,破坏了他的情感处理能力。所以他不再感到任何情绪。他仍然非常善于表达,可以解决小谜题,在测试中他看起来很好。但他没有任何感觉。他不觉得悲伤,不觉得愤怒,也不觉得兴奋。不知何故,他变得极不擅长做任何决定。决定穿哪双袜子要花他几个小时。他会做出非常糟糕的财务决定。

这说明了我们内置的情感在使我们成为一个可行的智能体(agent)方面扮演了什么角色?联系到你关于预训练的问题,也许如果你足够擅长从预训练中获取所有东西,你也能得到那个。但这看起来像是那种……好吧,从预训练中获得那个可能行,也可能不行。

Dwarkesh Patel:“那个”是什么?显然不仅仅是直接的情感。它看起来几乎像某种类似价值函数(value function)的东西,它告诉你任何决定的最终回报应该是什么。你认为这并不隐含地来自预训练吗?

Ilya Sutskever:我认为它可以。我只是说这不是 100% 显而易见的。

Dwarkesh Patel:但那是什么?你如何看待情感?情感的机器学习(ML)类比是什么?

Ilya Sutskever:它应该是某种价值函数的东西。但我不认为有一个很好的 ML 类比,因为目前,价值函数在人们做的事情中并没有扮演非常突出的角色。

Dwarkesh Patel:如果你愿意的话,也许值得为听众定义一下什么是价值函数。

Ilya Sutskever:当然,我很乐意这样做。当人们做强化学习时,现在的强化学习是怎么做的,人们如何训练那些智能体(agents)?你有你的神经网络,你给它一个问题,然后你告诉模型,“去解决它。”模型采取也许数千、数十万次行动或思考或其他什么,然后它产生一个解决方案。解决方案被打分。

然后分数被用来为你的轨迹中的每一个行动提供训练信号。这意味着如果你做的事情需要很长时间——如果你在训练一个需要很长时间才能解决的任务——在你想出提议的解决方案之前,它根本不会进行任何学习。这就是天真地做强化学习的方式。这就是 o1、R1 表面上的做法。

价值函数说的是类似这样的话:“也许我可以有时候,不是总是,告诉你你做得是好是坏。”价值函数的概念在某些领域比其他领域更有用。例如,当你下国际象棋丢了一个棋子,我搞砸了。你不需要下完整盘棋就知道我刚才做得很糟糕,因此之前的步骤也很糟糕。

价值函数让你能够缩短等到最后的等待时间。假设你在做某种数学或编程的事情,你试图探索特定的解决方案或方向。在,比如说,思考了一千步之后,你得出结论这个方向是没有希望的。一旦你得出这个结论,你就可以在一千个时间步之前,当你决定沿着这条路走的时候,获得一个奖励信号。你说,“下次在类似情况下我不应该走这条路,”这比你实际想出提议的解决方案要早得多。

Dwarkesh Patel:这在 DeepSeek R1 的论文里提到过——轨迹的空间如此宽广,也许很难学习从中间轨迹到价值的映射。而且考虑到,例如在编码中,你会有一个错误的想法,然后你会回去,然后你会改变一些东西。

Ilya Sutskever:这听起来像是对深度学习缺乏信心。当然这可能很难,但没有什么深度学习做不到的。我的预期是价值函数应该是有用的,我完全预计它们将在未来被使用,如果不是已经被使用了的话。

我提到的那个情感中枢受损的人,我想暗示的是,也许这表明人类的价值函数在某种重要的方式上受到情感的调节,这种调节是由进化硬编码的。也许这对人们在世界上有效运作很重要。

Dwarkesh Patel:这正是我打算问你的事情。关于价值函数的情感有一些非常有趣的地方,那就是令人印象深刻的是它们有如此大的效用,同时又相当容易理解。

Ilya Sutskever:我有两个回应。我确实同意,与我们学到的东西和我们要讨论的 AI 类型相比,情感相对简单。它们甚至可能简单到也许你可以用人类可理解的方式把它们描绘出来。我认为那样做会很酷。

不过在效用方面,我认为存在一种复杂性与鲁棒性(robustness)的权衡,复杂的东西可能非常有用,但简单的东西在非常广泛的情况下非常有用。解释我们所见现象的一种方式是,我们拥有这些主要从哺乳动物祖先那里进化而来的情感,并在我们成为原始人类时进行了一点点微调,只是一点点。我们确实拥有相当数量的社会情感,这是哺乳动物可能缺乏的。但它们不是很复杂。正因为它们不复杂,在这个与我们一直生活的世界截然不同的世界里,它们依然很好地服务着我们。

实际上,它们也会犯错。例如,我们的情感……其实,我不知道。饥饿算是一种情感吗?这有争议。但我认为,例如,在这个食物充足的世界里,我们直觉上的饥饿感并没有成功地正确引导我们。

Dwarkesh Patel:人们一直在谈论扩展(scaling)数据、扩展参数、扩展计算。有没有更通用的方式来思考扩展?其他的扩展轴是什么?

Ilya Sutskever:这是一个我认为可能是正确的视角。过去机器学习的工作方式是,人们只是修修补补,试图得到有趣的结果。这就是过去一直在发生的事情。

然后扩展的洞察力到来了。扩展定律(Scaling laws),GPT-3,突然每个人都意识到我们应该扩展。这是语言如何影响思想的一个例子。“Scaling(扩展)”只是一个词,但它是一个如此强大的词,因为它告诉人们该做什么。他们说,“让我们尝试扩展事物。”所以你会问,我们在扩展什么?预训练是要扩展的东西。这是一个特定的扩展配方。

预训练的巨大突破在于意识到这个配方是好的。你会说,“嘿,如果你把一些算力和一些数据混合进一个特定大小的神经网络,你会得到结果。你会知道如果你只是按比例放大配方,你会变得更好。”这也很好。公司喜欢这个,因为它为你提供了一种非常低风险的资源投资方式。把资源投入到研究中要难得多。与之相比,如果你做研究,你需要像,“去吧研究人员,去做研究并想出点什么来”,对比“获取更多数据,获取更多算力”。你知道你会从预训练中得到东西。确实,根据有些人在推特上说的各种事情,看起来 Gemini 似乎找到了一种从预训练中获得更多的方法。但在某个时候,预训练的数据会用完。数据显然是有限的。接下来你做什么?要么你做某种增强版的预训练,一种与你以前做的不同的配方,要么你做 RL,或者也许是其他东西。但现在算力很大,算力现在非常大,从某种意义上说,我们回到了研究时代。

也许换一种说法。直到 2020 年,从 2012 年到 2020 年,那是研究时代。现在,从 2020 年到 2025 年,那是扩展时代(age of scaling)——也许加上误差条,让我们给这些年份加上误差条——因为人们说,“这太惊人了。你必须扩展更多。继续扩展。”这一个词:扩展。

但现在规模太大了。真的相信“哦,它这么大,但如果你有 100 倍以上,一切都会如此不同”吗?肯定会有所不同。但相信只要你把规模扩大 100 倍,一切都会发生质变吗?我不认为那是真的。所以这又回到了研究时代,只是有了大电脑。

Dwarkesh Patel:这是一种非常有趣的说法。但让我问你刚才提出的问题。我们在扩展什么,拥有一个配方意味着什么?我想我没有意识到预训练中存在一种非常清晰的、几乎看起来像物理定律的关系。在数据或计算或参数与损失(loss)之间存在幂律关系。我们应该寻求什么样的关系,我们应该如何思考这个新配方可能是什么样子的?

Ilya Sutskever:我们已经目睹了从一种类型的扩展到另一种类型的扩展的转变,从预训练到 RL。现在人们正在扩展 RL。根据人们在推特上所说的,目前他们在 RL 上花费的算力比在预训练上花费的还要多,因为 RL 实际上可以消耗相当多的算力。你做非常长的展开(rollouts),所以产生这些展开需要大量的算力。然后你从每个展开中获得的学习量相对较少,所以你真的可以花费大量的算力。

我甚至不会称之为扩展。我会说,“嘿,你在做什么?你正在做的事情是你所能做的最高效的事情吗?你能找到一种更高效的方式来使用你的算力吗?”我们之前讨论过价值函数的事情。也许一旦人们擅长价值函数,他们将更有效地利用资源。如果你找到另一种完全不同的训练模型的方法,你可以说,“这是扩展还是仅仅是在使用你的资源?”我认为这变得有点模棱两可。

在这个意义上,当人们在那时的研究时代,是“让我们试试这个和这个和这个。让我们试试那个和那个和那个。哦,看,有趣的事情正在发生。”我认为将会有对此的回归。

Dwarkesh Patel:如果我们回到了研究时代,退一步说,我们需要思考最多的配方部分是什么?当你说价值函数时,人们已经在尝试当前的配方,然后有 LLM-as-a-Judge(大模型作为裁判)等等。你可以说那是价值函数,但听起来你有更基本的东西在脑海里。我们甚至应该重新思考预训练,而不仅仅是在那个过程的末尾添加更多步骤吗?

Ilya Sutskever:关于价值函数的讨论,我认为很有趣。我想强调,我认为价值函数会让 RL 更有效率,我认为这会有所不同。但我认为任何你可以用价值函数做的事情,你不用它也可以做,只是更慢。我认为最根本的事情是,这些模型不知何故泛化能力比人差得多。这超级明显。这似乎是一件非常根本的事情。

Dwarkesh Patel:所以这是关键:泛化(generalization)。有两个子问题。一个是关于样本效率(sample efficiency):为什么这些模型学习需要的数据比人类多那么多?还有第二个问题。即使抛开所需的数量不谈,为什么教模型我们想要的东西比教人类要难得多?对于人类,我们不一定需要一个可验证的奖励才能……你现在可能正在指导一群研究人员,你在和他们交谈,你在给他们看你的代码,你在向他们展示你是如何思考的。

从中,他们学到了你的思维方式以及他们应该如何做研究。

你不需要为他们设定一个可验证的奖励,比如,“好的,这是课程的下一部分,现在这是你课程的下一部分。哦,这次训练不稳定。”没有这种笨重、定制的过程。也许这两个问题实际上在某种程度上是相关的,但我很好奇探索这第二个东西,它更像是持续学习(continual learning),而第一个东西感觉就像是样本效率。

Ilya Sutskever:你可能会想,对于人类样本效率的一个可能的解释是进化。进化给了我们少量最有用信息。对于像视觉、听觉和运动这样的东西,我认为有很强的理由证明进化给了我们很多。

例如,人类的灵巧度远远超过……我的意思是,如果你在模拟中对机器人进行大量的训练,它们也可以变得灵巧。但在现实世界中训练机器人像人一样快速掌握一项新技能似乎遥不可及。在这里你可以说,“哦是的,运动。我们所有的祖先都需要很好的运动能力,松鼠。所以对于运动,也许我们有一些难以置信的先验(prior)。”

你可以对视觉提出同样的观点。我相信 Yann LeCun 提出过一个观点,孩子们在练习 10 小时后就学会了开车,这是真的。但我们的视觉太好了。至少对我来说,我记得自己五岁的时候。那时我对汽车非常兴奋。我很确定作为五岁小孩,我的汽车识别能力对于驾驶来说已经绰绰有余了。作为一个五岁小孩,你看不到那么多数据。你大部分时间都待在父母的房子里,所以你的数据多样性非常低。

但你可以说也许那是进化。但在语言、数学和编程方面,可能不是。

Dwarkesh Patel:这似乎仍然比模型好。显然,模型在语言、数学和编程方面比普通人好。但它们在学习方面比普通人好吗?

Ilya Sutskever:哦是的。哦是的,绝对的。我想说的是,语言、数学和编程——尤其是数学和编程——表明,无论是什么让人类善于学习,可能都不太像是一个复杂的先验,而是某种更多的、某种根本性的东西。

Dwarkesh Patel:我不确定我理解了。为什么会这样?

Ilya Sutskever:考虑一项人们表现出某种巨大可靠性的技能。如果这项技能对我们的祖先来说在数百万年、数亿年里非常有用,你可以争辩说也许人类擅长它是因为进化,因为我们有一个先验,一个以某种非常不明显的方式编码的进化先验,不知何故让我们如此擅长它。

但如果人们在一个直到最近才存在的领域表现出巨大的能力、可靠性、鲁棒性和学习能力,那么这更多地表明人们可能只是拥有更好的机器学习,就这样。

Dwarkesh Patel:我们应该如何思考那是什么?ML 的类比是什么?这有几个有趣的地方。它需要更少的样本。它更是无监督的。一个学习开车的孩子……孩子们不是在学开车。一个学习如何开车的青少年并没有完全得到某种预先建立的、可验证的奖励。它来自于他们与机器和环境的互动。它需要少得多的样本。它看起来更无监督。它看起来更鲁棒?

Ilya Sutskever:鲁棒得多。人的鲁棒性真是惊人。

Dwarkesh Patel:你有没有一种统一的方式来思考为什么所有这些事情同时发生?能够实现类似这种事情的 ML 类比是什么?

Ilya Sutskever:你一直问的一件事是,青少年司机如何在没有外部老师的情况下自我纠正并从经验中学习?答案是他们有他们的价值函数。他们有一种一般的感觉,顺便说一句,这种感觉在人身上也非常鲁棒。无论人类的价值函数是什么,除了一些关于成瘾的例外,它实际上是非常非常鲁棒的。

所以对于像正在学习驾驶的青少年来说,他们开始驾驶,他们立即就有了一种感觉,关于他们驾驶得怎么样,有多糟糕,有多不自信。然后他们看到,“好的。”然后,当然,任何青少年的学习速度都是如此之快。10 小时后,你就可以上路了。

Dwarkesh Patel:看起来人类有一些解决方案,但我很好奇他们是怎么做到的,为什么这么难?我们需要如何重新概念化我们训练模型的方式,以使这种事情成为可能?

Ilya Sutskever:这是一个很好的问题,也是一个我有很多观点的问题。但不幸的是,我们生活在一个并非所有机器学习想法都能自由讨论的世界,这就是其中之一。可能有一种方法可以做到。我认为这是可以做到的。人们是那样的这一事实,我认为这就证明了它是可以做到的。

不过可能还有另一个阻碍,那就是人类神经元做的计算可能比我们要多。如果那是真的,并且如果那起着重要作用,那么事情可能会更困难。但无论如何,我确实认为它指向了某种机器学习原则的存在,对此我有自己的看法。但不幸的是,环境使得很难详细讨论。

Dwarkesh Patel:没人听这个播客,Ilya。

Dwarkesh Patel:我很好奇。如果你说我们要回到研究时代,你从 2012 年到 2020 年都在那里。如果我们回到研究时代,现在的氛围会是什么样的?

例如,即使在 AlexNet 之后,用于运行实验的算力也在不断增加,前沿系统的规模也在不断增加。你认为现在这个研究时代仍然需要巨大的算力吗?你认为这需要回到档案室去读旧论文吗?当研究氛围更浓厚的时候,你在 Google、OpenAI 和斯坦福这些地方。我们应该在社区中期待什么样的事情?

Ilya Sutskever:扩展时代的一个后果是,扩展吸走了房间里所有的空气。因为扩展吸走了所有的空气,每个人都开始做同样的事情。我们到了这样一个地步,世界上的公司比想法多得多。实际上关于这一点,硅谷有句俗话说,想法很廉价,执行才是一切。人们经常这么说,这也有道理。但我看到有人在推特上说,“如果想法这么廉价,为什么没人有任何想法?”我认为这也是真的。

如果你从瓶颈的角度思考研究进展,有几个瓶颈。其中一个是想法,另一个是你将它们变为现实的能力,这可能是算力,也可能是工程。如果你回到 90 年代,假设那时候有些人有很好的想法,如果他们有更大的计算机,也许他们可以证明他们的想法是可行的。但他们做不到,所以他们只能做一个非常非常小的演示,无法说服任何人。所以瓶颈是算力。

然后在扩展时代,算力增加了很多。当然,有一个问题是需要多少算力,但算力很大。算力大到足以证明某种想法不需要那么多额外的算力这一点并不明显。我给你一个类比。AlexNet 是建立在两个 GPU 上的。那是用于它的总算力。Transformer 是建立在 8 到 64 个 GPU 上的。没有任何单一的 Transformer 论文实验使用了超过 2017 年的 64 个 GPU,那大概相当于今天的两个 GPU?ResNet,对吧?你可以争辩说 o1 推理并不是世界上最耗费算力的事情。

所以对于研究,你肯定需要一定量的算力,但远不明显你需要绝对最大量的算力来进行研究。你可能会争辩,我也认为是真的,如果你想建立绝对最好的系统,那么拥有更多的算力是有帮助的。特别是如果每个人都在同一个范式内,那么算力就成了巨大的区分因素之一。

Dwarkesh Patel:我在问你历史,因为你当时真的在那里。我不确定实际上发生了什么。听起来使用最少量的算力来开发这些想法是可能的。但 Transformer 并没有立即成名。它变成了每个人开始做的事情,然后开始在它之上进行实验并建立,因为它在越来越高的算力水平上得到了验证。

Ilya Sutskever:正确。

Dwarkesh Patel:如果你在 SSI(Safe Superintelligence Inc.)有 50 个不同的想法,如果没有其他前沿实验室拥有的那种算力,你怎么知道哪一个是下一个 Transformer,哪一个是脆弱的?

Ilya Sutskever:我可以对此发表评论。简短的评论是,你提到了 SSI。具体对我们来说,SSI 用于研究的算力真的不小。我想解释为什么。简单的数学可以解释为什么我们要用于研究的算力比人们想象的要多。我解释一下。

SSI 筹集了 30 亿美元,从任何绝对意义上来说这都是很多。但你可以说,“看看其他筹集更多资金的公司。”但他们的大量算力用于推理(inference)。这些大数字,这些大额贷款,是专门用于推理的。那是第一点。第二,如果你想拥有一个可以进行推理的产品,你需要有大量的工程师、销售人员。大量的研究需要致力于生产各种与产品相关的功能。所以当你看看实际上剩下多少用于研究时,差距就变得小得多了。

另一件事是,如果你在做不同的事情,你真的需要绝对最大的规模来证明它吗?我不认为那是真的。我认为在我们的案例中,我们要有足够的算力来证明,说服我们自己和其他任何人,我们正在做的事情是正确的。

Dwarkesh Patel:公开估计像 OpenAI 这样的公司目前每年仅在实验上就花费大约 50-60 亿美元。这与他们在推理等方面花费的资金是分开的。所以看起来他们每年运行研究实验的花费比你们的总资金还要多。

Ilya Sutskever:我认为这是一个关于你怎么用它的问题。这是一个关于你怎么用它的问题。在他们的情况下,在其他人的情况下,对训练算力有更多的需求。有更多不同的工作流,有不同的模态,只是有更多的东西。所以它变得碎片化了。

Dwarkesh Patel:SSI 将如何赚钱?

Ilya Sutskever:我对这个问题的回答是这样的。目前,我们只专注于研究,然后那个问题的答案会自己显现出来。我认为会有很多可能的答案。

Dwarkesh Patel:SSI 的计划仍然是直通超级智能(straight shot superintelligence)吗?

Ilya Sutskever:也许。我认为这有其优点。我认为这有很多优点,因为不受日常市场竞争的影响非常好。但我认为有两个原因可能会导致我们改变计划。一个是务实的,如果时间线变得很长,这有可能。第二,我认为最好、最强大的 AI 存在于外界并影响世界有很大的价值。我认为这是一件有意义且有价值的事情。

Dwarkesh Patel:那么为什么你的默认计划是直通超级智能?因为听起来 OpenAI、Anthropic,所有这些其他公司,他们明确的想法是,“看,我们有越来越弱的智能,公众可以习惯并为此做好准备。”为什么直接建立超级智能可能更好?

Ilya Sutskever:我会提出支持和反对的理由。支持的理由是,人们在市场中面临的挑战之一是他们必须参与激烈的竞争(rat race)。激烈的竞争非常困难,因为它让你面临你需要做出的艰难权衡。说“我们将把自己与所有这些隔离开来,只专注于研究,直到我们准备好了才出来,而不是在此之前”是很好的。但反驳也是有效的,这些是相反的力量。反驳是,“嘿,让世界看到强大的 AI 是有用的。让世界看到强大的 AI 是有用的,因为那是你能够传达它的唯一方式。”

Dwarkesh Patel:好吧,我想不仅仅是可以传达这个想法——

Ilya Sutskever:传达 AI,不是想法。传达 AI。

Dwarkesh Patel:你是说“传达 AI”是什么意思?

Ilya Sutskever:假设你写了一篇关于 AI 的文章,文章说,“AI 将会是这样,AI 将会是那样,它将会是这个。”你读了它,你说,“好的,这是一篇有趣的文章。”现在假设你看到一个 AI 做这个,一个 AI 做那个。这是无法比较的。基本上我认为 AI 出现在公众视野中有很大的好处,这将是我们不完全“直通”的一个理由。

Dwarkesh Patel:我想甚至不仅仅是那个,但我确实认为那是其中重要的一部分。另一件大事是,我想不出人类工程和研究中的另一门学科,其最终产物主要是通过思考如何使其安全来变得更安全的,这与为什么今天每英里的飞机坠毁率比几十年前低得多形成对比。为什么在 Linux 中找 bug 比几十年前难得多?我认为这主要是因为这些系统被部署到了世界上。你注意到了故障,这些故障被纠正了,系统变得更鲁棒。

我不确定为什么 AGI 和超人智能会有什么不同,尤其是考虑到——我希望我们要谈到这个——似乎超级智能的危害不仅仅是关于有一个恶意的回形针制造者(malevolent paper clipper)。而是一个真正强大的东西,我们甚至不知道如何概念化人们如何与它互动,人们会用它做什么。逐步接触它似乎是分散其影响并帮助人们为此做好准备的更好方式。

Ilya Sutskever:在这个点上,即使在直通方案中,你仍然会逐步发布它,我是这么设想的。渐进主义将是任何计划的固有组成部分。只是问题在于你推出的第一个东西是什么。那是第一点。

第二,我相信你比其他人更提倡持续学习(continual learning),而且实际上我认为这是一件重要且正确的事情。原因如下。我要给你另一个例子说明语言如何影响思维。在这种情况下,我认为有两个词塑造了每个人的思维。第一个词:AGI(通用人工智能)。第二个词:预训练(pre-training)。让我解释一下。

AGI 这个术语,为什么存在?这是一个非常特别的术语。为什么它存在?有一个原因。在我看来,AGI 这个术语存在的原因,与其说是因为它是某种智能最终状态的非常重要、本质的描述符,不如说是对另一个存在的术语的反应,这个术语就是狭义 AI(narrow AI)。

如果你回到游戏和 AI、跳棋 AI、国际象棋 AI、电脑游戏 AI 的古代历史,每个人都会说,看这个狭义的智能。当然,国际象棋 AI 可以击败卡斯帕罗夫,但它做不了其他任何事情。它是如此狭义,人工狭义智能。所以作为回应,作为对此的反应,有些人说,这不好。它太狭义了。我们需要的是通用 AI,一种可以做所有事情的 AI。那个术语获得了很多关注。

第二件获得很多关注的事情是预训练,特别是预训练的配方。我认为人们现在做 RL 的方式也许正在消除预训练的概念印记。但预训练有这个属性。你做更多的预训练,模型在所有方面都变得更好,或多或少是一致的。通用 AI。预训练给予 AGI。

但 AGI 和预训练发生的事情是,在某种意义上它们超过了目标。如果你思考“AGI”这个术语,特别是在预训练的背景下,你会意识到人类不是 AGI。是的,肯定有技能的基础,但人类缺乏大量的知识。相反,我们依赖于持续学习。

所以当你思考,“好的,假设我们取得了成功,我们生产了某种安全的超级智能。”问题是,你如何定义它?它将在持续学习曲线的哪个位置?

我生产了一个超级聪明的 15 岁少年,非常渴望去闯荡。他们知道的并不多,一个好学生,非常渴望。你去当程序员,你去当医生,去学习。所以你可以想象部署本身将涉及某种学习试错期。这是一个过程,而不是你扔出一个完成的东西。

Dwarkesh Patel:我明白了。你是建议你在超级智能方面指出的不是某种完成的心智,它知道如何做经济中的每一项工作。因为,比如最初的 OpenAI 章程或其他的定义 AGI 的方式是,它可以做每一项工作,人类能做的每一件事。你提议的是一种可以学习做每一项工作的心智,那就是超级智能。

Ilya Sutskever:是的。

Dwarkesh Patel:但是一旦你有了学习算法,它就会像人类劳动者加入组织一样被部署到世界上。

Ilya Sutskever:没错。

Dwarkesh Patel:看起来这两件事中的一件可能会发生,也许这两件都不会发生。一,这种超级高效的学习算法变得超人,变得和你一样好,甚至可能更好,在 ML 研究任务上。结果算法本身变得越来越超人。

另一个是,即使那没有发生,如果你有一个单一的模型——这明确地是你的愿景——模型的实例被部署到整个经济中做不同的工作,学习如何做那些工作,在工作中持续学习,掌握任何人可以掌握的所有技能,但同时掌握所有这些技能,然后合并它们的学习,你基本上就有了一个模型,即使在软件中没有任何递归自我改进,它在功能上也变成了超级智能。

因为你现在有一个模型可以做经济中的每一项工作,而人类无法以同样的方式合并我们的思想。所以你是否期望从广泛部署中产生某种智能爆炸?

Ilya Sutskever:我认为很有可能会有快速的经济增长。我认为随着广泛部署,你可以提出两个相互冲突的论点。一个是,一旦你真的到了拥有一个可以快速学习做事的 AI 并且你有很多个这样的 AI 的地步,那么将会有一股强大的力量将它们部署到经济中,除非会有某种法规阻止它,顺便说一句,可能会有。

但是关于广泛部署带来的非常快速的经济增长的想法,我认为这是非常可能的。问题是它会有多快。我认为这很难知道,因为一方面你有这个非常高效的工人。另一方面,世界真的很大,有很多东西,那些东西以不同的速度移动。但另一方面,现在的 AI 可以……所以我认为非常快速的经济增长是可能的。我们会看到各种各样的事情,比如不同的国家有不同的规则,那些规则更友好的国家,经济增长会更快。很难预测。

Dwarkesh Patel:在我看来,这是一个非常不稳定的情况。在极限情况下,我们知道这应该是可能的。如果你有某种在学习方面和人类一样好的东西,但它可以合并它的大脑——以人类无法合并的方式合并不同的实例——这似乎在物理上应该是可能的。人类是可能的,数字计算机是可能的。你只需要结合这两者就能产生这个东西。

看起来这种东西也非常强大。经济增长是一种说法。戴森球(Dyson sphere)是大量的经济增长。但另一种说法是,你将在可能非常短的时间内拥有……你在 SSI 雇佣人,六个月后,他们可能有净产出。人类学得真的很快,而这个东西变得越来越聪明非常快。你如何考虑让这一切顺利进行?为什么 SSI 定位好能做到这一点?SSI 在那里的计划是什么,基本上这就是我想问的。

Ilya Sutskever:我的想法发生变化的方式之一是,我现在更加重视 AI 的逐步和提前部署。关于 AI 的一件非常困难的事情是,我们在谈论尚不存在的系统,很难想象它们。

我认为正在发生的一件事是,实际上很难感觉到 AGI。很难感觉到 AGI。我们可以谈论它,但想象一下谈论当你年老体弱时变老是什么感觉。你可以进行对话,你可以尝试想象它,但这只是很难,你会回到那不是事实的现实中。我认为很多关于 AGI 及其未来力量的问题源于很难想象它。未来的 AI 将会不同。它将会很强大。确实,整个问题,AI 和 AGI 的问题是什么?整个问题就是力量。整个问题就是力量。

当力量真的很大时,会发生什么?我在过去一年中改变主意的方式之一——这种主意的改变,我会稍微对冲一下,可能会反向传播到我们公司的计划中——就是如果很难想象,你做什么?你得把那个东西展示出来。你得把那个东西展示出来。我坚持认为大多数从事 AI 工作的人也无法想象它,因为它与人们日常看到的东西太不同了。

我确实坚持,这是我预测会发生的事情。这是一个预测。我坚持认为随着 AI 变得更强大,人们会改变他们的行为。我们将看到各种前所未有的事情,这些事情现在还没有发生。我会举一些例子。我认为不管是好是坏,前沿公司将在发生的事情中扮演非常重要的角色,政府也是如此。

我认为你会看到的那种事情,你已经看到了苗头,那是激烈的竞争对手开始在 AI 安全方面合作。你可能已经看到 OpenAI 和 Anthropic 迈出了第一小步,但这以前是不存在的。这是我在大约三年前的一次演讲中预测的事情,这样的事情会发生。我也坚持认为,随着 AI 继续变得更强大,更明显地强大,政府和公众也会渴望做点什么。我认为这是一股非常重要的力量,即展示 AI。

那是第一点。

第二,好的,所以 AI 正在被建立。需要做什么?我坚持会发生的一件事是,现在,从事 AI 工作的人,我坚持认为 AI 因为它的错误而不让人感觉强大。我确实认为在某个时候 AI 会开始让人感觉真正强大。

我认为当那发生时,我们将看到所有 AI 公司在处理安全问题的方式上发生巨大变化。他们会变得更加偏执。我说这是一个预测,我们会看到它发生。我们要看看我是否正确。但我认为这是将会发生的事情,因为他们会看到 AI 变得更强大。现在正在发生的一切,我坚持认为,是因为人们看着今天的 AI,很难想象未来的 AI。

还有第三件事需要发生。我是从更广泛的角度来谈论它,不仅仅是从 SSI 的角度,因为你问了关于我们要建立的公司。问题是,公司应该渴望建立什么?他们应该渴望建立什么?有一个每个人都被锁定的大想法,那就是自我改进的 AI。为什么会这样?因为想法比公司少。但我坚持认为有更好的东西可以建立,我认为每个人都会想要那个。

那就是稳健地对齐,去关爱有感知能力的生命(sentient life)的 AI,特别是。我认为尤其可以论证,建立一个关爱有感知能力的生命的 AI 比建立一个仅关爱人类生命的 AI 更容易,因为 AI 本身将是有感知的。如果你思考像镜像神经元(mirror neurons)和人类对动物的同理心这样的事情,你可能会争辩说这不够大,但它存在。我认为这是从我们用建模自己的同一回路来建模他人这一事实中产生的涌现属性,因为那是最高效的做法。

Dwarkesh Patel:所以即使你让 AI 关爱有感知能力的生物——其实我不清楚如果你解决了对齐(alignment),那是不是你应该尝试做的——情况仍然是大多数有感知能力的生物将是 AI。将会有数万亿,最终数千万亿的 AI。人类将是有感知能力的生物中非常小的一部分。所以如果不清楚目标是对这个未来文明的某种人类控制,这是否是最好的标准。

Ilya Sutskever:这是真的。这可能不是最好的标准。我要说两件事。第一,关爱有感知能力的生命,我认为这有其优点。这应该被考虑。我认为如果有一些公司在这种情况下可以使用的想法简短清单,那将是有帮助的。这是第二点。第三,我认为如果最强大的超级智能的力量在某种程度上受到限制,那将会有实质性的帮助,因为它会解决很多这些担忧。关于如何做到这一点的问题,我不确定,但我认为当你谈论真正、真正强大的系统时,那将会有实质性的帮助。

Dwarkesh Patel:在我们继续对齐讨论之前,我想双击那个点。顶部还有多少空间?你如何思考超级智能?利用这个学习效率的想法,你认为它只是在学习新技能或新知识方面极快吗?它只是拥有更大的策略池吗?中间是否有一个更有力或更大的单一凝聚体“它”?如果是这样,你想象这将与人类文明的其他部分相比像神一样,还是只是感觉像另一个智能体,或另一组智能体?

Ilya Sutskever:这是一个不同的人有不同直觉的领域。我认为它肯定会非常强大。我认为最有可能发生的是,大约在同一时间将会有多个这样的 AI 被创造出来。我认为如果集群足够大——比如如果集群实际上是大陆规模的——那个东西真的可能非常强大,确实。

如果你真的有一个大陆规模的集群,那些 AI 可能会非常强大。我能告诉你的是,如果你在谈论极其强大的 AI,真正戏剧性地强大,如果它们能在某些方面受到限制,或者如果只有某种协议或其他东西,那就好了。

超级智能的担忧是什么?解释这种担忧的一种方式是什么?如果你想象一个足够强大的系统,真的足够强大——你可以说你需要做一些理智的事情,比如以一种非常一心一意的方式关爱有感知能力的生命——我们可能不喜欢结果。那真的就是这样。

顺便说一句,也许答案是你不要建立通常意义上的 RL 智能体。我会指出几点。我认为人类是半 RL 智能体。我们追求奖励,然后情绪或其他什么让我们对奖励感到厌倦,我们追求不同的奖励。市场是一种非常短视的智能体。进化也是一样。进化在某些方面非常聪明,但在其他方面非常愚蠢。政府被设计成三个部分之间永无休止的斗争,这是有效果的。所以我想这类事情。

另一件让这个讨论变得困难的事情是,我们谈论的是不存在的系统,我们不知道如何建立。那是另一件事,这实际上是我的信念。我认为人们现在正在做的事情会走一段距离,然后逐渐减弱。它会继续改进,但也成不了“那个”。“那个”我们不知道如何建立,很多都取决于理解可靠的泛化。

我还要说另一件事。关于导致对齐困难的原因,你可以说的一件事是,你学习人类价值观的能力是脆弱的。然后你优化它们的能力是脆弱的。你实际上学会了优化它们。难道你不能说,“这些难道不都是不可靠泛化的实例吗?”为什么人类似乎泛化得好得多?如果泛化好得多呢?在这种情况下会发生什么?会有什么影响?但那些问题目前仍然无法回答。

Dwarkesh Patel:人们如何思考 AI 进展顺利是什么样子的?你已经勾勒出了 AI 可能如何进化。我们将拥有这些持续学习的智能体。AI 将非常强大。也许会有许多不同的 AI。你如何看待许多大陆规模的计算智能四处游走?那有多危险?我们如何让那变得不那么危险?我们如何以一种保护均衡的方式做到这一点,在这种均衡中可能会有未对齐的 AI 和坏的行动者?

Ilya Sutskever:这就是为什么我喜欢“关爱有感知能力的生命的 AI”的一个原因。我们可以争论它是好是坏。但如果这些戏剧性系统中的前 N 个确实关爱、爱人类或某种东西,关爱有感知能力的生命,显然这也需要实现。这需要实现。所以如果这由前 N 个系统实现,那么我可以看到它进展顺利,至少在相当长的一段时间内。

然后是关于长期会发生什么的问题。你如何实现长期均衡?我认为在那里,也有一个答案。我不喜欢这个答案,但它需要被考虑。

从长远来看,你可能会说,“好的,如果你有一个强大的 AI 存在的世界,在短期内,你可以说你有普遍的高收入。你有普遍的高收入,我们都做得很好。”但佛教徒怎么说?“变化是唯一的常数。”事物在变化。有某种政府、政治结构的东西,它在变化,因为这些东西有保质期。一些新的政府事物出现了,它运作,然后过了一段时间它停止运作。那是我们看到一直发生的事情。

所以我认为对于长期均衡,一种方法是你可以说也许每个人都会有一个 AI 听从他们的命令,那很好。如果那能无限期地维持下去,那是真的。但那样的缺点是,然后 AI 去为这个人赚钱,并在政治领域倡导他们的需求,也许然后写一份小报告说,“好的,这是我所做的,这是情况,”然后人说,“太好了,继续保持。”但这人不再是参与者了。然后你可以说那是一个不稳定的处境。

我要先说我不喜欢这个解决方案,但它是一个解决方案。解决方案是如果人们通过某种脑机接口(Neuralink)变成部分 AI。因为结果将会是现在 AI 理解了一些东西,我们也理解了它,因为现在理解是被全盘传输的。所以现在如果 AI 处在某种情况中,你自己也完全参与了那种情况。我认为这就是均衡的答案。

Dwarkesh Patel:我想知道,数百万年——或者在很多情况下,数十亿年——前在完全不同的环境中进化出的情感仍然如此强烈地指导我们的行动,这一事实是否是对齐成功的一个例子。

为了说明我的意思——我不知道称之为价值函数还是奖励函数更准确——但脑干(brainstem)有一个指令,说:“与更成功的人交配。”皮层(cortex)是理解现代背景下成功意味着什么的部分。但脑干能够对齐皮层并说,“无论你认为成功是什么——我不够聪明去理解那是什么——你仍然要追求这个指令。”

Ilya Sutskever:我认为有一个更普遍的观点。我认为进化如何编码高层欲望实际上真的很神秘。很容易理解进化如何赋予我们要吃闻起来好的食物的欲望,因为气味是一种化学物质,所以只要追求那种化学物质。很容易想象进化做那件事。

但进化也赋予了我们所有这些社会欲望。我们真的很在乎被社会积极看待。我们在乎拥有良好的地位。我们拥有的所有这些社会直觉,我强烈感觉它们是根深蒂固的。我不知道进化是怎么做到的,因为那是一个在大脑中表现的高层概念。

假设你在乎某种社会事物,它不像气味那样的低层信号。它不是某种有传感器的东西。大脑需要做大量的处理来拼凑大量的信息碎片以理解社会上正在发生什么。不知何故进化说,“那就是你应该关心的。”它是怎么做到的?

它做得也很快。我们关心的所有这些复杂的社会事物,我认为它们是很近才进化出来的。进化很轻松地硬编码了这种高层欲望。我不知道有什么好的假设能解释它是如何完成的。我有过一些想法,但没有一个是令人满意的。

Dwarkesh Patel:特别令人印象深刻的是,这是你在有生之年学到的欲望,这说得通,因为你的大脑是智能的。你能够学习智能欲望是有道理的。也许这不是你的观点,但理解它的一种方式是,欲望内置于基因组中,而基因组并不智能。但你不知何故能够描述这个特征。甚至不清楚你是如何定义那个特征的,而你可以把它构建进基因里。

Ilya Sutskever:本质上,或者也许我会换一种说法。如果你思考基因组可用的工具,它说,“好的,这是建立大脑的配方。”你可以说,“这是连接多巴胺神经元和气味传感器的配方。”如果气味是某种好气味,你就想吃那个。

我可以想象基因组做那个。我声称这更难想象。更难想象基因组说你应该关心某种复杂的计算,你的整个大脑,你大脑的一大块,在做的计算。这就是我声称的。我可以告诉你一个关于它是如何做到的推测,我会解释为什么这个推测可能是错误的。

所以大脑有大脑区域。我们有我们的皮层。它有所有那些大脑区域。皮层是均匀的,但皮层中的大脑区域和神经元大多与它们的邻居说话。这就解释了为什么会有大脑区域。因为如果你想做某种语音处理,所有做语音的神经元都需要互相交谈。因为神经元只能与它们附近的邻居交谈,在很大程度上,它必须是一个区域。

所有的区域在人与人之间的位置大多是相同的。所以也许进化确实硬编码了大活的一个位置。所以它说,“哦,当大脑的 GPS 坐标某某,当那点火时,那就是你应该关心的。”也许那就是进化所做的,因为那会在进化的工具箱内。

Dwarkesh Patel:是的,尽管有一些例子,例如,天生失明的人,他们皮层的那个区域被另一种感官采用了。我不知道,但如果那些需要视觉信号的欲望或奖励函数对于那些皮层不同区域被征用的人不再起作用,我会感到惊讶。

例如,如果你不再有视觉,你还能感觉到我希望周围的人喜欢我这种感觉吗,这通常也有视觉线索。

Ilya Sutskever:我完全同意这一点。我认为对这个理论有一个甚至更强的反驳。有些人在童年时期切除了一半的大脑,他们仍然拥有所有的大脑区域。但它们都不知何故移到了仅有的一个半球,这表明大脑区域,它们的位置不是固定的,所以那个理论是不正确的。

如果那是真的会很酷,但它不是。所以我认为那是一个谜。但这是一个有趣的谜。事实是不知何故进化能够赋予我们非常非常可靠地关心社会事物的能力。即使是那些有各种奇怪的精神状况和缺陷以及情感问题的人也倾向于关心这个。

Dwarkesh Patel:SSI 计划做什么不同的事情?大概你的计划是当时机到来时成为前沿公司之一。大概你创立 SSI 是因为你想,“我想我有办法以其他公司没有的方式安全地做到这一点。”那个不同点是什么?

Ilya Sutskever:我会这样描述它,我认为有一些想法是有希望的,我想调查它们,看看它们是否真的有希望。真的很简单。这是一种尝试。如果这些想法被证明是正确的——我们讨论的这些围绕理解泛化的想法——那么我认为我们将拥有一些有价值的东西。

它们会被证明是正确的吗?我们在做研究。我们是一家不折不扣的“研究时代”公司。我们正在取得进展。我们在过去一年里实际上取得了相当好的进展,但我们需要继续取得更多进展,更多研究。我是这么看的。我把它看作是一种尝试成为声音和参与者的方式。

Dwarkesh Patel:你的联合创始人兼前 CEO 最近离开去了 Meta,人们问,“好吧,如果有大量的突破正在发生,那看起来像是一件不太可能发生的事情。”我想知道你如何回应。

Ilya Sutskever:对此,我只想提醒几个可能被遗忘的事实。我认为这些提供背景的事实解释了情况。背景是我们正在以 320 亿美元的估值融资,然后 Meta 进来提议收购我们,我说不。但在某种意义上,我的前联合创始人说了是。结果,他也能够享受到很多近期的流动性,他是 SSI 唯一加入 Meta 的人。

Dwarkesh Patel:听起来 SSI 的计划是成为一家当你们到达人类历史上这个非常重要的时期——拥有超人智能时——处于前沿的公司。你们有关于如何让超人智能进展顺利的想法。但其他公司将尝试他们自己的想法。有什么区别 SSI 让超级智能进展顺利的方法?

Ilya Sutskever:区别 SSI 的主要事情是它的技术方法。我们有一种不同的技术方法,我认为值得,我们正在追求它。

我坚持认为最终战略将会趋同。我认为战略将会趋同,在某个时候,随着 AI 变得更强大,对每个人来说战略应该是什么将变得或多或少清晰。它应该是类似这样的东西,你需要找到某种方式互相交谈,你希望你的第一个实际真正的超级智能 AI 是对齐的,并且以某种方式关爱有感知能力的生命,关爱人类,民主,其中之一,或者某种组合。

我认为这是每个人都应该争取的条件。那是 SSI 正在争取的。我认为这一次,如果不是已经这样了,所有其他公司都会意识到他们正在争取同样的东西。我们将拭目以待。我认为随着 AI 变得更强大,世界将真正改变。我认为事情将会非常不同,人们的行为也会非常不同。

Dwarkesh Patel:说到预测,你对你描述的这个系统有什么预测,它可以像人类一样学习,并随之,作为一个结果,变得超人?

Ilya Sutskever:我认为大概 5 到 20 年。

Dwarkesh Patel:5 到 20 年?

Ilya Sutskever:嗯。

Dwarkesh Patel:我只想展开你可能看到的世界是如何到来的。就像,我们还有几年时间,这些其他公司继续目前的方法并且停滞不前。“停滞不前”在这里意味着他们赚取的收入不超过几千亿?你如何思考停滞不前意味着什么?

Ilya Sutskever:我认为停滞不前看起来会像……所有不同的公司看起来都会非常相似。可能是这样。我不确定,因为我认为即使停滞不前,我认为这些公司也可以创造惊人的收入。也许不是利润,因为他们需要努力工作以使彼此区分开来,但收入肯定有。

Dwarkesh Patel:但是在你的模型中有一些东西暗示当正确的解决方案确实出现时,所有公司之间会有趋同。我很好奇你为什么认为会是那样。

Ilya Sutskever:我更多是在谈论关于他们对齐战略的趋同。我认为技术方法的最终趋同也可能会发生,但我是在暗示对齐战略的趋同。到底什么才是应该做的事情?

Dwarkesh Patel:我只是想更好地理解你如何看待未来的展开。目前,我们有这些不同的公司,你预计他们的方法会继续产生收入,但不会达到这种类似人类的学习者。所以现在我们有这些不同的公司分叉。我们有你,我们有 Thinking Machines,还有一堆其他实验室。也许其中一个想出了正确的方法。但是随后他们产品的发布让其他人清楚了如何做这件事。

Ilya Sutskever:我认为如何做这件事不会很清楚,但这将清楚地表明有些不同的事情是可能的,那就是信息。人们随后会试图弄清楚那是如何工作的。但我确实认为,这里没有提到、没有讨论的一件事是,随着 AI 能力的每一次增加,我认为会有某种变化,但我不知道确切是哪些,关于事情是如何完成的。我认为这将很重要,但我无法拼出那确切是什么。

Dwarkesh Patel:默认情况下,你会期望拥有那个模型的公司获得所有这些收益,因为他们拥有在世界上建立技能和知识的模型。有什么理由认为那带来的好处会被广泛分配,而不是仅仅终结于任何首先获得这种持续学习循环的模型公司?

Ilya Sutskever:这是我认为会发生的事情。第一,让我们看看过去的 AI 是如何发展的。一家公司产生了一个进步,另一家公司争先恐后,在一段时间后产生了一些类似的东西,他们开始在市场上竞争并将价格压低。所以我认为从市场角度来看,类似的事情也会在那里发生。

顺便说一句,我们谈论的是好的世界。什么是好的世界?就是我们拥有这些强大的类人学习者,它们也……顺便说一句,也许还有另一件关于超级智能 AI 规格的事情我们还没讨论,我认为值得考虑。那就是你让它变狭义,它可以同时有用且狭义。你可以有很多狭义的超级智能 AI。

但是假设你有很多个,你有一家公司从中产生了很多利润。然后你有另一家公司进来并开始竞争。竞争运作的方式是通过专业化。竞争喜欢专业化。你在市场上看到它,你在进化中也看到它。你将会有很多不同的利基市场,你将会有很多不同的公司占据不同的利基市场。在这个世界里我们可能会说一家 AI 公司在真正复杂的经济活动的某个领域确实要好得多,而另一家公司在另一个领域更好。第三家公司非常擅长诉讼。

Dwarkesh Patel:这难道不被类人学习所暗示的东西反驳了吗?它是说它可以学习……

Ilya Sutskever:它可以,但你有积累的学习。你有很大的投资。你花了很多算力变得非常非常擅长,真正非凡地擅长这件事。别人花了很多算力和很多经验在其他事情上变得非常擅长。你应用了很多人类学习来到达那里,但现在你处于这个高点,别人会说,“看,我不想开始学习你已经学过的东西。”

Dwarkesh Patel:我想那将需要许多不同的公司在大约同一时间开始类人持续学习智能体,以便他们可以在不同的分支开始他们不同的树搜索。但是如果一家公司首先获得了那个智能体,或者首先获得了那个学习者,那确实看起来像……好吧,如果你只是思考经济中的每一项工作,让一个实例学习每一项工作对于一家公司来说似乎是可行的。

Ilya Sutskever:这是一个有效的论点。我的强烈直觉是,事情不会那样发展。论点说它会那样发展,但我的强烈直觉是它不会那样发展。在理论上,理论和实践没有区别。在实践中,有。我认为这将是其中之一。

Dwarkesh Patel:很多人的递归自我改进模型字面上、明确地指出我们将在服务器里有一百万个 Ilya 提出不同的想法,这将导致超级智能非常快地涌现。

你对你正在做的事情的可并行化程度有什么直觉吗?制作 Ilya 的副本有什么收益?

Ilya Sutskever:我不知道。我认为肯定会有收益递减,因为你想要思维不同的人而不是相同的。如果真的是我的字面副本,我不确定你会得到多少增量价值。思维不同的人,那是你想要的。

Dwarkesh Patel:为什么即使是完全不同的公司发布的、在可能不重叠的数据集上训练的不同模型,LLM 彼此之间实际上相似得疯狂?

Ilya Sutskever:也许数据集并不像看起来那么不重叠。

Dwarkesh Patel:但在某种意义上,即使个人可能比未来的 AI 生产力低,也许人类团队比 AI 团队拥有更多多样性这一事实是有道理的。我们如何引发 AI 智能体之间有意义的多样性?我认为仅仅提高温度(temperature)只会导致胡言乱语。你想要更像是不同的科学家有不同的偏见或不同的想法。你如何在 AI 智能体之间获得那种多样性?

Ilya Sutskever:我认为之所以没有多样性,是因为预训练。所有的预训练模型几乎都是一样的,因为它们在相同的数据上进行预训练。现在 RL 和后训练(post-training)是一些差异化开始出现的地方,因为不同的人想出了不同的 RL 训练。

Dwarkesh Patel:我听说你过去暗示过自我博弈(self-play)是获取数据或将智能体与同等智能的其他智能体匹配以启动学习的一种方式。我们应该如何思考为什么没有这种东西在 LLM 上起作用的公开提议?

Ilya Sutskever:我想说有两件事要说。我认为自我博弈有趣的原因是因为它提供了一种仅使用算力而不使用数据来创建模型的方法。如果你认为数据是最终瓶颈,那么仅使用算力是非常有趣的。所以这让它很有趣。

问题是自我博弈,至少在过去的做法中——当你有不知何故相互竞争的智能体时——它只对开发特定的一套技能有好处。它太狭窄了。它只对谈判、冲突、某些社交技能、制定战略那类东西有好处。如果你关心那些技能,那么自我博弈将是有用的。

实际上,我认为自我博弈确实找到了归宿,只是形式不同。所以像辩论、证明者-验证者(prover-verifier),你有某种 LLM-as-a-Judge(大模型作为裁判),它也被激励去发现你工作中的错误。你可以说这不完全是自我博弈,但我相信这是人们正在做的相关的对抗性设置。

真正的自我博弈是更一般的智能体之间竞争的一个特例。对竞争的自然反应是试图变得不同。所以如果你把多个智能体放在一起,你告诉他们,“你们都需要处理某个问题,你是一个智能体,你在检查其他人正在做什么,”他们会说,“好吧,如果他们已经采取了这种方法,我不清楚我是否应该追求它。我应该追求一些差异化的东西。”所以我认为类似这样的东西也可以为方法的多样性创造激励。

Dwarkesh Patel:最后一个问题:什么是研究品味(research taste)?你显然被认为是世界上在 AI 研究方面品味最好的人。你是深度学习历史上发生的最大事情的合著者,从 AlexNet 到 GPT-3 等等。它是什么,你如何描述你是怎么想出这些想法的?

Ilya Sutskever:我可以就我自己评论这一点。我认为不同的人做法不同。有一件事指引着我个人,那就是通过思考人是怎样的,但正确地思考,来形成一种 AI 应该是怎样的美学。错误地思考人是怎样的是很容易的,但正确地思考人意味着什么?

我给你举些例子。人工神经元(artificial neuron)的想法直接受大脑启发,这是一个伟大的想法。为什么?因为你说大脑有所有这些不同的器官,它有褶皱,但褶皱可能并不重要。为什么我们认为神经元重要?因为有很多神经元。这感觉是对的,所以你想要神经元。你想要某种局部的学习规则来改变神经元之间的连接。大脑这样做感觉是合理的。

分布式表征(distributed representation)的想法。大脑对经验做出反应,因此我们的神经网络应该从经验中学习。大脑从经验中学习,神经网络应该从经验中学习。你会问自己,某件事是根本的还是不根本的?事情应该是怎样的。

我认为这在很大程度上一直指引着我,从多个角度思考,几乎是在寻找美,美和简单。丑陋,没有丑陋的容身之地。它是美、简单、优雅、来自大脑的正确灵感。所有这些东西需要同时存在。它们存在得越多,你就越能对自上而下的信念(top-down belief)充满信心。

自上而下的信念是当实验反驳你时支撑你的东西。因为如果你总是相信数据,好吧,有时候你可能做的是正确的事情,但有个 bug。但你不知道有个 bug。你怎么分辨有没有 bug?你怎么知道你是应该继续调试还是这结论是个错误的方向?就是自上而下。你可以说事情必须是这样的。类似这样的东西必须行得通,因此我们必须继续前进。这就是自上而下,它基于这种多方面的美和大脑的灵感。

Dwarkesh Patel:好了,我们就到这里。

Ilya Sutskever:非常感谢。

Dwarkesh Patel:Ilya,非常感谢。

Ilya Sutskever:好的。很感激。

Dwarkesh Patel:这太棒了。

Ilya Sutskever:是的,我很享受。

Dwarkesh Patel:是的,我也是。

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,76938人围观)参与讨论

还没有评论,来说两句吧...