您现在的位置是:主页 > 模板分享 > 国外 >
Sutskvi 的 20,000 字采访
发布时间:2025-11-26 10:31编辑:365bet体育注册浏览(121)
作者 |晓晓制作|硅谷聚光灯下的网易科技,当前的AI圈就像一场无休无止的军备竞赛。每隔几个月,就会有一个巨人跳起来喊道:“看!我的模型参数又翻倍了!”或者“看!我又买了10万张H100显卡!”每个人似乎都相信一个真理:只要有足够的数据和足够的计算能力,AGI就会自动出现。然而,在狂热的“算力崇拜”中,真正的重量级人物,OpenAi 前首席科学家、Chatgpt 创始人、安全超级智能(SSI)现任 CEO Ilya Sutskever 选择了一条完全不同的道路。最近,他接受了热门播客 Dwarkesh Podcast(主持人:Dwarkesh Patel)的独家采访。没有为了融资而做大饼,也没有公关式的陈词滥调。这次采访就像是一位刚刚从未来穿越而来的顶尖科学家,平静地告诉我们:“别玩了,旧的游戏方式已经结束了。”它不仅仅是一个输出意见,还有详细的“AGI路线图”。他不仅提供了AGI到来的倒计时(5到20年),还深入分析了当前大模型的致命缺陷。网友评价,苏茨克维在采访中展现了他一贯的思维深度:不用复杂的术语,就能直指人工智能发展的主要矛盾。他的“我们已经从规模时代走向研究时代”的判断尤其值得每一个关注AI领域的人思考。他堪称“我们时代的奥本海默”。苏茨克维看到了什么?让我们来分解一下这次谈话的要点。 01.告别“权力可以创造奇迹”:规模化时代的终结。时间回到五年前,苏茨克维可能是那个相信“缩放法则”的人。但现在,他却成为了亲自将棺材板放入“天秤时期”的人。在采访中,苏茨克维像一位严格的历史学家一样,将2010年底至2025年期间定为“规模化时代”。过去几年是人工智能发展的“黄金蜜月期”。逻辑简单粗暴但非常有效:只要增加计算资源、增加数据量,模型的能力就会相应增加。这种高度的确定性吸引了风险投资和技术巨头。但苏茨克维目前的判断是:这些都是好日子。为什么?因为我们撞到了两堵墙。第一堵墙是“数据疲劳”。互联网上的高质量人类文本通常会被当前模型“吃掉并清理干净”。如果你想继续依靠成堆的数据来提升智力,就如同在困难的矿井里淘金一样,投入产出比会急剧下降。第二堵墙“减少了边际效应”。 Sutskvi 提出了一个引起共鸣的问题:“当模型如此之大时,如果你投入 100 倍的计算资源,会发生什么?”能它带来了合格的飞跃吗? “答案令人失望。但这并不意味着人工智能已经结束,而是意味着游戏规则已经改变。我们正式进入了‘大发现时代’。在新时代,战斗不再是谁拥有更多 GPU,而是谁能找到更智能、更重要算法的‘新配方’。为了解释为什么我们需要新公式,苏兹科维不仅抱怨当前的 AI,还发明了一个非常准确的词:“满级问题给出了一个问题在整个奥赛级别,都可以在这些课中解决。实际工作中,就像编程一样,它的表现就像一个“泥头。能力”:在一些测试集上,人工智能的表现已经超越了人类;但在许多需要不断逻辑推理的现实情况下,它的可靠性甚至不如实习生。问题的根源在于“通用能力”的缺乏。如果没有天赋,只能练车10到20个小时。学到了。那么我们的人工智能呢?它就像一只贪婪的“数据貔貅”,吞噬着所有人产生的所有行车视频和数据,但遇到看不见的路况时,它仍然可以立即“崩溃”。今天的人工智能依靠“背诵”海量例子来得出见解。这个差距是AGI必须克服的差距。 03.寻找“机器直觉”:价值函数是主要的。那么,人们这种“从情境中获取信息”的能力从何而来呢?苏茨克维给出的答案在生物学上出人意料地丰富:价值函数(value)),或者说是一种内在的“感觉”。为了解释硬核机器的概念,苏兹科维奇讲述了一个关于脑损伤患者的真实案例。有一位曾经才华横溢的会计师,因脑损伤而失去了情感中枢。虽然他的智商完好无损,但记忆力极佳,逻辑运算也堪称完美。但他的生活崩溃了。为什么?因为他无法决定。 J为了早上“穿哪双袜子”的问题,他可以花几个小时在衣柜里翻找,列出无数的优点和缺点,但永远无法选择其中之一。苏兹克维说,情绪(感受)和感受确实是人类大脑在复杂世界中的目的。一套“超级压缩算法”已经发展起来,可以有效地生存。它对应的是我们的生物大脑,也就是“价值函数”。如今的人工智能训练(如强化学习)通常是“以结果为导向”的:当模型跑完全程马拉松时,我们会说它的表现好不好。这效率太低了! “功能价值”的人是随时随地在耳边轻声细语的“导师”。当你准备拐过这个路口时,你的“直觉”会告诉你:“感觉不太对劲,这条路有点吓人。”评估“过程”实时价值的能力是人类智能高效和鲁棒性的主要秘密。苏兹科维贝利埃夫斯认为,下一代人工智能的突破在于如何让机器学习这种“直觉”。 04、告别同质化:让AI学会“互相争斗”。除了“缺乏远见”(缺乏直觉)之外,今天的人工智能还有一个很大的问题:相似性。你有没有发现,如果是OpenAi、Claude或者你们Google的风格,他们的回答风格甚至犯错的方式都变得越来越相似? Sutskvi指出:“因为每个人都使用相同的数据集进行预训练。”这种同质化是危险的,它会导致所有模型掉进同一个坑。为了打破这个僵局,苏兹科维奇提出了AlphaGo时代的经典思路:下棋本身,但这一次是升级版。苏茨克维设想的不仅仅是一场国际象棋比赛,而是一种“与对手的辩论”。想象一下,我们不是直接在一个模型上训练,而是训练两个模型。一个充当“辩手”,提出意见;其他人充当“裁判”或“批评者”,寻找逻辑所有漏洞。你甚至可以让两个AI就一个问题进行激烈的辩论。在这种“左右斗争”的高压环境下,模型被迫跳出死记硬背的舒适区,寻找更深层次的逻辑支点。苏茨克维认为,只有通过这种激烈的内部竞争,才能转化出独特的“个性”和真正的创造力,而不是成为“平庸的薪水”。 05、SSI的野心:为了打造一个具有超级颠覆性思想(研究时间、价值函数、自我发挥)的“15岁超人”,Suzkowe创立了一家新公司SSI(Safe Superintelligence)。这解释了为什么 SSI 如此重要且值得信赖。当被问及“既然不做产品,钱够烧吗?”苏茨克维平静地说:“我们没有很多计算资源。”不同的是,其他公司都在投资大型推理服务器,为数亿用户服务,支持数千人的产品团队;尽管SSI将每一分钱、每一块显卡的计算能力都花在了“Pure Research(研究计算)”上。他们的目标产品不是聊天机器人,而是“超级聪明的 15 岁男孩”。这又是一个奇妙的比喻。苏茨克维心目中的AGI一旦出厂就不强大了,强大的上帝。他就像一个智商极高、学习速度极快、充满好奇心的天才少年。它没有读过世界上所有的书,但是当你把它扔到一个陌生的环境中时,它可以利用强大的“功能值”快速掌握这项技能。至于AGI何时到来,nSutskvi给出了一个令人印象深刻的时间表:5到20年。这不再是遥远的科幻概念,而是我们这一代人注定要经历的历史时刻。 06. 开放景观:从“传递人性”到“关爱生命” 在谈到AI的最后一个安全和对齐问题时,苏兹科维奇的视野从技术层面跳到了哲学层面灵智层面,展现出大师的真实格局。许多公司仍在学习如何“倾听人们的声音”和“不伤害人们”,但苏兹科维思考了一个更大、更普遍的建议:开发一种“关心有感知生命”的人工智能。他认为,仅将人工智能训练给“诚实的人”是不够稳健的,而且可能是危险的。因为未来的宇宙中,除了人之外,还可以存在大量的AI智能体。如果艾未未只知道如何遵循指示,而不了解“痛苦”和“快乐”的本质,他仍然可能是一个冷血的高管。相反,具有情感、同理心以及理解和欣赏所有“有感知生命”的能力的人工智能才是真正安全的。这种基于“大爱”的结盟比基于“规则”的结盟更容易实施,也更稳定。更有趣的是关于未来人的地位,苏茨克维转发了一个非常赛博朋克的想法:“如果人们不想被边缘化,他们可能需要通过脑机接口(如neurink)与人工智能整合,成为“半人工智能生命体”。这不仅是科技的融合,更是文明的演进。 07.结论:在人工智能科学家“美学建议”采访的最后,苏茨克维分享了他的秘密研究策略,听起来就像艺术家的独白。他说,真正开创性的研究通常满足三个标准:美观、简单和生物学合理性。 “如果实验数据与你的直觉相矛盾,那么是什么支撑你坚持下去呢?就是对‘美’的信念。”苏兹科维奇的话标志着人工智能领域正在发生深刻的范式转变。通过“堆积材料”获胜的时代已经结束了。正如他所说:“如果想法并不昂贵,为什么他们现在什么也得不到呢?”未来5到20年将是理解、美学和“机器直觉”的新舞台。 AGI的倒计时已经开始,你准备好了吗?文字记录(翻译由AI编写,网易编辑校对)【模型能力参差不齐的解释】Ilya Sutskvi:你知道什么是疯狂的吗?一切都是真的。德瓦克什·帕特尔:这是什么意思?伊利亚·苏茨克维:你不这么认为吗?所有人工智能(AI)的东西,湾区发生的一切......这一切都在发生。这看起来不像科幻小说里的东西吗? Devarkesh Patel:另一件疯狂的事情是“缓慢起飞”的新鲜感。我们将 GDP 的 1% 投资于人工智能的想法,我原以为会动摇,但现在感觉…… Ilya Sutskvi:事实证明,我们很快就能适应新事物。而且它也很抽象。这究竟意味着什么?只是你在新闻中看到某家公司宣布了一项大投资。就这样。现在,这些人在其他方面并没有感受到这一点。 Devarkesh Patel:我们想从这里开始吗?我认为这是一个有趣的讨论点。伊利亚·苏茨克维:当然。德瓦克什·帕tel:你提到的这一点,从一个正常人的角度来看,没有什么不同,我认为即使有相同的情况也是正常的。 Ilya Sutskvi:不,我不这么认为。德瓦克什·帕特尔:嗯,很有趣。 Ilya Sutskvi:我所说的“没有什么奇怪的感觉”只是指,例如,某家公司宣布了一项难以理解的大笔投资。我认为没有人知道如何处理这些信息。但我认为人工智能的影响将会真正被感受到。人工智能已经渗透到整个经济体系。其背后会有非常强大的经济驱动力,我认为影响会非常大。 Devarkesh Patel:您预计影响什么时候会出现?我觉得当前的模型看起来比它们所产生的经济影响更聪明。伊利亚·苏茨克维:是的。这是当今模型中最令人困惑的事情之一。如何协调模型在评估中表现良好的事实?你看了评论,然后说:“这些问题很难。”他们创造了它们。但生态经济影响似乎明显滞后。很难理解为什么模型一方面可以做出这些令人惊奇的事情,但另一方面在某些情况下却会重复同样的错误。例如,假设您使用“vibe 编码”做某事。您写道您遇到了错误。你对模型说:“你能修复这个错误吗?”模型说:“天哪,你是对的。我有一个错误。让我修复它。”它引入了第二个错误。然后你说:“你有这个新错误。”它说:“天哪,我该怎么办?你又说对了。”然后它返回第一个错误,然后您在两个错误之间来回切换。这怎么可能?我不确定,但这意味着似乎正在发生一些奇怪的事情。我有两种可能的解释。一个更有趣的解释是,也许学习曲线(RL)的实践使模型有点过于僵化和孤立,有点过于自我意识,尽管它使模型在其他方面变得更加敏锐。因此,他们无法执行基本操作c 正确执行任务。但还有另一种解释。当人们进行预训练时,“用什么数据进行训练”这个问题的答案是不言自明的,因为答案是“所有数据”。在进行预训练时,您需要所有数据。所以你不必担心是使用这个数据还是那个数据。但当人们练习强化学习时,他们必须思考。他们会说:“好吧,我们想对这个东西进行这种强化学习训练,对那个东西进行那种强化学习训练。”据我所知,所有公司都有专门的团队负责构建新的强化学习环境并将其添加到训练组合中。问题是,这些环境是什么?很多自由。您可以构建多种 RL 环境。可能发生的一件事(我认为是无意的)是人们会从评估中寻求灵感。你说,“嘿,我希望我们的模型发布时能很好。我希望测试成绩看起来不错。什么样的 RL 训练能让我在工作中加分?我认为情况确实如此,并且可能解释了当前情况的很多原因。如果将此与模型缺乏实际泛化结合起来,它可以解释我们在测试性能和实际性能之间看到的许多脱节。这种脱节意味着什么,我们现在还不完全理解。 Devarkesh Patel:我喜欢这样的想法:真正的“奖励黑客”实际上是坚持测试的人类研究人员。我认为有两种方式来理解或者思考你所指出的问题。一是,如果模型不能自动变得更容易接受,并且不能通过在编程竞赛中实现超人的表现来更好地判断如何改进代码库,那么您应该扩展您的环境套件,以不仅仅测试其在编程竞赛中的性能。它还应该为 X、Y 或 Z 构建最佳应用程序。另一种方法(也许这就是您的提示)是问:“我们为什么要采用它?或者在编程竞赛中达到超人水平并不会让你成为更好的程序员?”也许我们需要做的不是保持环境的数量和多样性,而是找到一种方法让模型从一种环境中学习,从而提高其在其他方面的表现。Ilya Sutskvi:我有一个人类类比可以提供帮助。既然你提到了这一点,让我们以竞争性编程为例。假设有两个学生,其中一个决定成为最好的竞争性程序员,那么他在这个领域接受了 10,000 个小时的训练。他非常熟练、快速、正确地解决了所有的问题,并记住了所有的算法,这样,他成为了第 2 号学生的领先者之一,“哦,竞争性编程很酷。”他可能只做了 100 个小时,但你认为哪一个会更好地塑造你的未来?利亚·苏茨克维:是的。我认为这正是正在发生的事情。今天的模型与第一个学生相似,甚至可能相似。因为我们会说模型应该擅长竞争性编程,所以我们会找到历史上所有的竞争性编程问题。然后我们要做数据增强,有很多问题,然后训练它。现在你已经掌握了这位有竞争力的程序员的秘诀了。有了这个比喻,事情就更容易理解了。是的,如果训练得当,所有不同的算法和证明方法都触手可及。但直观上也可以理解,这种级别的测试实践不一定能推广到其他事物。 Devarkesh Patel:但是第二个学生在进行这 100 个小时的调音之前在做什么?这有什么比喻呢? Ilya Sutskvi:我认为他们有一些东西(“IT”因素)。就是这样的人才。我本科的时候记得有一个同学就是这样的,所以我就知道这些人们存在过。 Devarkesh Patel:我认为区分这种“特征”和预训练的作用很有趣。一种理解方式是,“预训练不需要数据选择”,这和10,000小时的训练没有什么区别。只是你免费获得了10,000小时的训练,因为它是在预训练的分布中。但也许你的意思是,预训练进行的泛化并不是这样的。预训练只有大量的数据,但它的泛化能力可能不高。 Ilya Sutskvi:预训练的主要优点是:A、数据量巨大;B、你不必仔细考虑要放入哪些数据进行预训练,它包含了很多人类的想法和很多特征,而预训练之所以困难,是因为很难理解模型以什么方式依赖于假装数据。塔。每当模型出错时,是否是因为运气不好导致该点没有得到预训练数据的充分支持? “预训练支持”可以是一个广义的术语。我不知道我可以在这里添加什么更有用的见解。我不认为预训练对人类有类似作用。 [情感和价值函数] Devalkesh Patel:关于什么是假装的人类类比,有很多建议。我想听听为什么你认为他们可能是错的。一是把生命的前18年、15年或13年视为预训练,那时,即使人们没有经济产出,他们也会做一些让他们更好地了解世界的事情。另一些人则认为进化是三十亿年内已经完成的某种探索,其结果就是人类生命的一个例子。我想知道您是否认为这与预训练相比。如果不是预训练,怎么能看到人类一生的学习过程呢? Ilya Sutskvi:我认为两者都与训练前有相似之处宁和预训练试图发挥两者的作用。但我认为也有很大的区别。预训练数据量令人筋疲力尽。德瓦克什·帕特尔:是的。 Ilya Sutskvi:不知何故,即使一个人只活了15年,他们接触到的数据也只是预训练数据的一小部分,他们知道的信息也更少。但无论他们知道什么,他们似乎都理解得更好。在那个年龄,你不会犯我们的人工智能所犯的错误。再来一张。你可能会问,这就是进化论吗?阿泰的答案是也许。但在这种情况下,我认为进化论可能更有用。我记得看过一个案例。神经科学家研究大脑的一种方法是研究大脑不同部位受损的人。有些人的症状超出想象。这真的非常非常有趣。我想到了一个相关的案例。我读到过有人患有某种脑损伤,无论是中风还是事故,都破坏了他处理情绪的能力。于是他不再感受到任何情绪。他仍然很清醒,可以解决小谜题,并且似乎在测试中表现良好。但他感觉不到任何情绪。他感觉不到悲伤,没有愤怒,也没有活力。但奇怪的是,他一做决定就变得一团糟。他需要时间来决定穿哪双袜子。他做出非常困难的财务决定。这意味着什么?这说明我们的内在情绪在使我们成为可行的代理人方面发挥着怎样的作用?联系到你关于预训练的问题,也许如果你能充分消化预训练中的所有信息,你也可以获得这种能力。但看起来……嗯,这种能力可能来自预训练,也可能不是。 Devarkesh Patel:“这种能力”是什么意思?显然不仅仅是直接的情感。这听起来几乎像是某种价值函数,可以告诉您任何决策的真正回报是什么。您不认为这是隐含在预训练中的吗? Ilya Sutskvi:我认为这是可能的。我只是说它是不是100%明显。 Devarkesh Patel:但这到底是什么?你如何看待情绪?机器学习 (ML) 中的情感相似度是什么? Ilya Sutskvi:这应该是某种价值函数的东西。但我认为这与今天的机器学习没有很好的类比,因为今天的价值函数在人们的行为中并没有发挥非常重要的作用。 Dwarkesh PaTerre:如果您愿意的话,可能值得为观众定义函数值是什么。 Ilya Sutskvi:当然,我会很高兴。当人们研究强化时,目前的做法是什么? ** 你有一个神经网络,给它一个问题,然后告诉模型:“去解决它。”该模型经过数千个操作或思考步骤,然后生成一个解决方案。解决方案将被标记。该分数用于为轨迹中的每个动作提供训练信号。这意味着,如果你正在做一些需要很长时间的事情 - 如果你练习一个需要很长时间才能解决的任务 - 它不会先学习得出建议的解决方案。这是当前强化学习的简单方法。 O1和R1在表面上做同样的事情。价值函数就像是:“也许我有时(并非总是)可以告诉你你是好是坏。”价值函数的概念在某些领域比其他领域更有用。例如,在国际象棋中,如果你输了一个棋子,我就会搞砸。你不必玩整盘游戏就知道我刚才的这一步棋是一个糟糕的棋步,至少可以说,之前的棋步也好不到哪去。值函数使您不必等到最后。假设您正在做某种数学工作或程序,并且您正在尝试探索特定的解决方案或方向。比如说,经过一千步思考之后,你最终会在这个方向上没有未来。只要你得出这个结论,当你决定走这条路时,你就会在过去一千步的时间里得到一个奖励信号。你说:“下次我不应该再走这条路Devarkesh Patel:这在 Deepseek R1 论文中提到过——轨迹空间太宽了,很难弄清楚从中间轨迹到值的映射。并且考虑一下,在编程中,你可能会得到一个错误的想法,然后回溯并改变一些东西。 Ilya Sutskvi:对深度学习也不是很有信心。当然,这可能很困难,但没有什么深度学习不能我的期望是,价值函数应该是有用的,如果我之前提到了情感中心受损的人,我完全希望将来能够使用它们,而我试图建议的可能是,人类的价值函数以某种重要的方式受到情感的调节,并且这个模块对于人们在世界上有效地行动来说可能很重要。情感作为价值函数的一个有趣的事情是,令人惊讶的是它们是多么微妙,但它们又是多么强大。 Ilya Sutskvi:我有两点回应。我同意,与我们所学到的知识和我们想要构建的人工智能相比,情绪非常简单。它们非常简单,您可以用人们可以理解的方式来描述它们。我认为这样做会很酷。但就实用性而言,我认为存在复杂性和愚蠢的权衡。复杂的东西可能很有用,但简单的东西在很多情况下都非常有用。对我们所看到的现象的一种解释是:这些情绪更多地是从我们的哺乳动物祖先进化而来,然后当我们成为原始人类时,进行了一点点微调。但我们拥有哺乳动物可能缺乏的大量情感。但它们并不是很复杂。因为它们并不复杂,所以它们仍然在与我们过去生活的世界截然不同的现代世界中为我们服务。事实上,它们是错误的g。比如我们的情绪……说实话,我不知道。饥饿是一种情绪吗?这是有争议的。但我认为,例如,我们对饥饿的直觉并不能成功地在当今食物丰富的世界中正确引导我们。 [我们的规模是多少? 】 Devarkesh Patel:人们谈论扩展数据、扩展参数、扩展计算能力。是否有更通用的方法来考虑扩展?其他扩展轴是什么? Ilya Sutskvi:我认为有一点可能是正确的。机器学习过去的工作方式是,人们只是进行修补和测试以获得有趣的结果。这在过去曾发生过。然后视野就扩大了。扩展法则,GPT-3,突然每个人都意识到我们必须扩展。这是语言影响思想的一个例子。 “缩放”只是一个词,毕竟它是一个非常强大的词,因为它告诉人们该做什么。他们说:“让我们试着测量一下。”那么你问,我们要扩展什么?我们扩展的目标是预训练。这是一个特定的扩展配方。预训练的巨大成功在于认识到这个公式是好的。你说,“嘿,如果你将一些计算能力和一些数据与一定规模的神经网络混合起来,你就会得到结果。你知道,如果你只是扩展这个配方,它会更好。”它非常美丽。公司喜欢这样,因为它提供了一种非常低成本的资源投资方式。相比之下,投入资源进行研究则更加困难。比较一下。如果你正在做研究,你需要说:“去找研究人员,做研究,想出一些东西”,而不是“获取更多数据,获得更多计算能力”。你知道你可以从预训练中得到一些东西。事实上,根据 Twitter 上的一些人的说法,Gemini 似乎已经找到了一种从预训练中获得更多收益的方法。但在某些时候,预先训练的数据将会耗尽。数据显然是有限的。接下来怎么办?要么你做某种增强的预训练——不同的比以前更先进的公式,或者你做RL,或者也许其他什么但是现在威力这么大,从某种意义上说,让我们回到研究时期。 2012年到2020年是研究期。现在,从 2020 年到 2025 年,这是一个扩展时期——可能会增加或减少几年——因为人们说,“这太棒了。”惊人的。你需要规模。保持规模化。”只有一个词:规模。但现在规模很大。人们真的相信“哦,现在很大,但如果你有 100 倍的规模,一切都会完全不同”?这肯定会产生影响。但它会改变一切吗?我不认为这是真的。所以它可以追溯到研究时代,到更大的计算机。德瓦克什·帕特尔:这是一个有趣的说法。所以我问你你问的问题。拥有一个配方?我不认为这是一种类似于幂律的关系,我们必须寻找什么样的关系?从预训练到强化学习。现在人们正在扩展强化学习。据 Twitter 上的人士透露,他们目前在 RL 上花费的计算能力比预训练还要多,因为 RL 会消耗大量计算能力。您的部署时间很长,因此构建它们需要大量的计算能力。那么每次减法得到的学习量就比较小,所以实际上可以使用大量的计算能力。我也不会将其称为扩展。我会说,“嘿,你在做什么?你正在做你能做的最有效的事情吗?你能找到一种更有效地使用计算能力的方法吗?”我们讨论了价值函数的价值。也许当人们善于使用价值函数时,他们将能够更有效地增加资源。如果您找到了一种全新的模型训练方法,您会说:“这是扩展,还是只是使用您的资源?”我认为这有点模棱两可了。从某种意义上说,当人们回到研究时代时,会说:“让我们试试这个、这个、这个。试试那个、那个、那个。哦,看,正在发生一些有趣的事情。”我想我们会回到那里。 Devarkesh Patel:如果我们回到研究时代,退一步,我们需要考虑配方的哪一部分?当你说价值函数时,人们已经在尝试现有的配方,如法学硕士作为法官等等。你可能会说价值函数,但听起来你心里有一些更基本的东西。我们是否应该完全重新思考假装,而不仅仅是在最后添加更多步骤Ilya Sutskvi:我想强调的是,认为价值函数会让强化学习变得更好,但我认为没有价值函数也可以做,只是速度较慢。这似乎是一个非常基本的事情。[为什么人比模型更好]。它有两个子问题。一是关于样本效率:为什么这些模型比人类需要更多的样本数据来学习?第二个问题是,无论数据量有多大,为什么教一个模型已经更难了?教别人更好吗?对于人们来说,我们不一定需要经过验证的奖励才能……你现在可以教一群研究人员,你正在与他们聊天,向他们展示你的代码,向他们展示你的想法。从那里,他们可以了解你如何思考以及如何研究。你不必为他们设定一个经过验证的奖励,比如,“好吧,这是课程的下一部分,这是你课程的下一部分。哦,这个锻炼是不稳定的。”它没有繁琐的定制过程。也许这两个问题在某种程度上是相关的,但我很好奇第二个问题就像持续学习,而第一个问题感觉只是效率。 Ilya Sutskvi:你实际上可以猜到对你的高人类样本的一种可能的解释是进化的。进化论给我们提供的信息很少,但却是最有用的。对于视觉、听觉和运动等事物,我认为有充分的理由相信进化已经给了我们很多东西。例如,人类的灵巧程度超出了……我的意思是,如果你在模拟环境中广泛训练机器人,它们也可以灵巧。但训练机器人像现实世界中的人类一样快速掌握新技能似乎是遥不可及的。在这里你可能会说,“哦,是的,运动。我们所有的祖先都需要良好的运动,就像松鼠一样。所以也许我们对此有一些令人难以置信的先验知识。”你可以对愿景做出同样的论证。我相信 Yann Lecun 说过,孩子经过 10 个小时的练习就可以学会开车,这是真的。但我们的愿景非常好。至少对我来说,我记得我五岁的时候。那时我对汽车非常兴奋。我确信作为一个五岁的孩子,汽车识别能力对于驾驶来说已经足够了。作为一个五岁的孩子,你不没有看到很多数据。您大部分时间都在父母家里度过,因此数据方差非常低。但你可以说这也许也是进化。但当涉及到语言、数学和编程时,也许就不是了。 Devarkesh Patel:但它似乎比模型还要好。显然,模型比普通人更擅长语言、数学和编程。但他们的学习能力比普通人好吗?伊利亚·苏茨克维:哦,是的。哦,是的,绝对是。我的意思是,语言、数学和编程——尤其是数学和编程——最重要的是让人们乐于学习的东西可能并不完全是复杂的先验知识,而是更多的、基础的东西。 Devarkesh Patel:我不确定我是否理解。为什么会发生这种情况? Ilya Sutskvi:如果人们在一项技能上表现出良好的可靠性,那么就考虑一下该技能。如果这项技能对我们的祖先在数百万年、数亿年里如此有用,你可能会说,也许人类擅长这项技能是因为进化解决,因为我们有一个先例,一个以某种非常晦涩的方式编码的进化先例,不知何故使我们变得优秀。但是,如果人们在最近不存在的领域中表现出强大的能力、可靠性、弹性和学习能力,那么这更多地表明人类可能拥有更好的机器学习原理。 Devarkesh Patel:我们如何看待它是什么?机器学习有什么类比?这里有很多有趣的点。它需要更少的例子。这更像是不受支持。一个孩子学开车……这不是孩子开车的方式。学习驾驶的青少年不会获得某种预先确定的、经过验证的奖励。这来自于他们与机器和环境的互动。它需要更少的样本。看来更不支持了。看上去比较稳重? Ilya Sutskvi:更稳定。人类的恢复力确实令人震惊。 Devarkesh Patel:对于为什么这一切都是如此,你有一个统一的思考方式吗?事情同时发生?实现类似目标的机器学习类比是什么? Ilya Sutskvi:您一直问的问题之一是,青少年驾驶员如何在没有外部老师的情况下自行学习并从经验中学习?答案是它们有自己的价值函数。顺便说一句,他们有一种普遍的感觉,这种感觉在人们身上非常稳定。无论人类的价值函数是什么,除了成瘾等少数例外,它确实非常强大。所以对于像学开车的青少年这样的青少年来说,他们一开始开车,立刻就会感觉到自己开车有多好、有多认真、有多自信。然后他们看到,“好吧。”当然,任何青少年都学得很快。 10个小时后就可以上路了。 Devarkesh Patel:显然人们有某种解决方案,但我很好奇他们是如何做到的以及为什么这么难?我们需要如何重新概念化模型的训练方式来做到这一点? Ilya Sutskvi:这是一个非常好的问题,我对此有很多意见。但不幸的是,我们生活在一个并非所有机器学习想法都可以自由讨论的世界,这就是其中之一。也许有办法做到这一点。我认为这是可以做到的。人们就是这样,我认为这证明这是可以做到的。但可能还有另一个障碍,那就是人类神经元的计算量可能比我们应该做的还要多。如果这是真的,并且发挥了重要作用,事情就会变得更加困难。但无论如何,我认为这些都表明了某种机器学习原理,并且我对此有自己的看法。但不幸的是,情况使我很难详细讨论它。 Devarkesh Patel:没有人听这个播客,Ilya。 【一步实现超级智能】Devarkesh Patel:我很好奇。如果你说我们回到了研究时期,那么你也经历了2012年到2020年。如果我们回到研究时期,今天的气候会是什么样?佛例如,即使在 Alexnet 完成之后,用于运行实验的计算能力仍在继续增加,尖端系统的规模也在继续增加。您认为海量算力时代还有研究的必要吗?或者你认为这需要回到档案馆并阅读旧文件?你在 Google、Openai 和斯坦福这样的地方。那个时候是研究环境比较强大的时候吗?我们的社区应该期待什么样的事情? Ilya Sutskvi:扩张时代的后果之一是扩张放弃了房间外的所有空气(吸引了所有注意力)。自从扩展之后,每个人都开始跟上潮流。我们要么生活在一个公司数量多于创意数量的世界。事实上,硅谷有句俗话说:“想法不算什么,执行才是一切。”人们常说这句话,也有道理。但后来我在推特上看到有人说:“如果想法这么便宜,为什么不存在?”我认为这也是事实。如果你从瓶颈的角度来考虑研究发展,就会发现有很多瓶颈。一个是想法,另一个是实现它的能力,这可能涉及到计算能力或工程。例如,如果你回到90年代,有些人有很棒的想法,如果他们有一台更大的计算机,也许他们可以证明他们的想法是有效的。但他们不能,所以他们只能给出一个非常非常小的想法。所以当时的瓶颈是计算能力。当然,需要多少计算能力的问题,但计算能力足够大,才能证明一个想法是可行的,我给你打个比方,那就是它使用的总计算能力。nsformeris 构建在 8 到 64 个 GPU 上。 2017 年任何 Transformer 论文中的实验都没有使用超过 64 个 GPU。现在这大约相当于 2 个 GPU,对吧?也有 Resnet,对吗?你可能会说识别 O1 并不是世界上计算量最大的事情。所以对于研究来说,你肯定需要一定的计算能力,但目前还不清楚你是否需要历史上绝对最大的计算能力来进行研究。你可以说,如果你想构建绝对最好的系统,那么拥有更多的计算能力会有所帮助,我认为这是真的。特别是如果一切都在同一范式内,计算能力就成为最大的差异之一。 Devarkesh Patel:我问你历史是因为你在那里。我不确定是否真的发生了这些想法,当时只需很少的计算能力就可以产生。但变压器并没有立即流行起来。它成为每个人都开始做的事情,然后成为专业人士追求更高水平的计算能力,并在此基础上进行构建。伊利亚·苏茨克维:没错。 Devarkesh Patel:如果你在 SSI(安全超级智能公司)有 50 个不同的想法,而没有其他尖端实验室拥有的计算能力,你怎么知道哪一个将是下一个变压器,哪一个会损坏? Ilya Sutskvi:我可以对此发表评论。快速评论一下,您提到了 SSI。具体对于我们来说,SSI用于研究的算力确实不小。我想解释一下原因。简单的数学解释了为什么我们在弓研究中使用的计算能力比人们想象的要多。让我解释一下。 SSI 筹集了 30 亿美元,从绝对值来看这是一笔巨款。但你说,“看看其他筹集更多资金的公司。”但他们的大部分计算能力都用于情报。这些大数字,这些大笔贷款,都是专门为了推理而制定的。这是第一点。第二点,想要有一个可以推理的产品,就需要一个大的t工程师和销售人员团队。必须进行大量研究来创建与产品相关的各种功能。因此,如果你看看这些内容发布后还剩下多少用于研究,差距就会变得小得多。另一件事是,如果你正在做其他事情,你真的需要绝对最大规模来证明它的合理性吗?我不认为那是真的。我认为在我们的案例中,我们想要证明——说服我们自己和其他任何人——我们正在做正确的事情,并且我们拥有足够的计算能力。 Devarkesh Patel:据公开估计,像 OpenAi 这样的公司目前每年仅在实验上就花费约 5-60 亿美元。这还不包括他们在推理之类的事情上花费的钱。所以看起来他们每年花在研究实验上的钱比你的总资助还要多。 Ilya Sutskvi:我认为这取决于你用它做什么。这是如何使用的问题。对于他们来说,就像其他人一样,对力量训练的需求更大。有米不同的工作流程,有不同的模式,更多的东西。于是就变成了碎片。 Devarkesh Patel:如何通过 SSI 赚钱? Ilya Sutskvi:我对这个问题的回答是这样的。目前,我们只专注于研究,然后这个问题的答案就会自然出现。我认为可能的答案有很多。 Devarkesh Patel:我的计划是超级智能的“直接射击”吗?伊利亚·苏茨克维:也许吧。我认为它有其优点。我认为这是有益的,因为摆脱日常市场竞争是件好事。但我们可能会改变计划的原因有两个。一是务实,如果时间线变得很长,这是可能的。其次,我认为拥有最强大、最好的人工智能并影响世界有很大的价值。 Devarkesh Patel:那么为什么你的默认计划是通往超级智能的直接途径呢?因为像 openai、anthropo 和所有其他公司一样,他们的明确想法是:“看,我们有越来越多、越来越弱的代理,而公众可以适应并为此做好准备。”为什么直接建立超级智能会更好?伊利亚·苏茨克维(Ilya Sutskvi):我将解释其优点和缺点。支持的论点是,人们在市场中面临的挑战之一是他们必须参与“老鼠赛跑”。这种竞争非常困难,因为它让你面临必须做出的艰难权衡。可以说,“我们将竭尽全力,只专注于研究,并且只专注于研究”。当我们准备好时才出现,而不是在我们准备好之前出现。”但相反的观点也是有效的。这是两种对立的力量。反驳是,“嘿,看到强人工智能对世界是有益的。看到强大的人工智能对世界来说是有益的,因为这是你与它沟通的唯一方式。” Devarkesh Patel:嗯,我认为不仅你可以与想法沟通 - Ilya Sutskvi:与 AI 沟通,而不是与想法沟通。与 AI 本身对话。 Devarkesh Patel:你所说的“沟通”是什么意思?Ilya Sutskvi:假设你写了一篇关于人工智能的文章,它说,“人工智能将是这样的,人工智能将是那样的,它将是这样的。”你读了它并说,“好吧,这是一篇有趣的文章。”现在假设你看到一个人工智能在做这个,一个人工智能在做那个。这是完全不同的。基本上,我认为人工智能公开有一个巨大的好处,这将是我们不“穿越”的一个原因Devarkesh Patel:我认为不仅仅如此,尽管我认为这是一个重要的部分,我想不出在工程和研究中还有哪个学科是安全的,特别是通过“思考它的安全性”而不是……为什么今天的飞机坠毁率比几十年前要低?为什么今天发现 Linux 错误比几十年前更难?我认为这主要是由于这些系统在世界上的部署方式。遇到错误,它们已被修复,并且系统变得更加稳定,我不确定。为什么 AGI(通用人工智能)和超人智能不同,特别是考虑到——我希望我们明白——它看起来如此严重。损害不仅仅是在那里进行一个经典的“剪纸机”思想实验。但它是如此强大,以至于我们不知道如何概念化人们将如何与它互动,人们将用它做什么。逐渐让人们接触它似乎是传播其影响并帮助人们做好准备的更好方法。 [SSI 模型将即时学习] Ilya Sutskvi:嗯,我想了一下,即使在“传递”场景中,排放量仍然会增加,这就是我的想法。渐进主义是任何计划的固有组成部分。这只是您启动的第一件事是什么的问题。这是第一点。第二,我相信您比任何人都更提倡“持续学习”,事实上我认为这是一件重要且正确的事情。原因如下。我将再举一个例子来说明语言如何影响思维。在在这种情况下,我认为有两个词塑造了每个人的想法。第一个词:AGI。第二个词:预训练。让我解释一下。 AGI这个词,为什么存在n这个词,这是一个非常具体的词。它为何存在?这是有原因的。在我看来,AGI这个词的存在并不是因为它是对智能最终状态的有价值且重要的描述,而是对另一个现有术语:狭义人工智能的反应。如果你回顾一下游戏人工智能、西洋跳棋人工智能、国际象棋人工智能、电脑游戏人工智能的古代历史,每个人都会说,看看这个专家智能。当然,国际象棋人工智能可以击败卡斯帕罗夫,但没有多少其他人工智能可以击败。这就像狭隘的、人工特定的智能。因此,作为对此的回应,有些人说,这不行。太窄了。我们需要一种通用人工智能,一种无所不能的人工智能。这个词引起了很多关注。第二个备受关注的事情是预训练,特别是预训练的公式。我瘦了人们今天的工作方式可以消除这种预培训的概念。但预训练就有这个特性。模拟越多,模型在各个方面就变得越好,或多或少是统一的。通用人工智能。预训练带来了 AGI。但 AGI 和预训练的情况是,从某种意义上说,它们“超出了目标”。如果你思考“AGI”这个词,特别是在预训练的背景下,你就会知道人类不是 AGI。是的,有技能基础,但人们缺乏大量的知识。相反,我们依靠持续学习。所以当你想,“好吧,假设我们成功了,我们创造了某种安全的超级智能。”问题是,你如何定义它?它处于持续学习曲线的哪个位置?我创造了一个15岁的男孩,智商极高,渴望展示自己的才华。他们知道的不多,是好学生,而且非常渴望。你会成为一名程序员,你会成为一名医生,你会学习。所以你可以想象部署本身将涉及某种学习试错期。这是一个过程,而不是扔掉成品。德瓦克什·帕特尔:我明白。你说你所指的超级智能并不是一个已经知道如何完成经济中每项工作的完整思维。因为,例如,最初的 OpenAi 章程或其他文件将 AGI 称为:它可以完成所有工作,它可以完成人类可以做的一切。相反,你建议的是一种可以学习做每项工作的头脑,这就是超级智能。伊利亚·苏茨克维:是的。 Devarkesh Patel:但是一旦有了这种学习算法,就可以像人类工人加入组织一样将其部署到世界各地。伊利亚·苏茨克维:没错。 Devarkesh Patel:看起来两件事之一可能会发生,也许那些事情不会发生。第一,这种超高效的学习算法变得超人,让你同样擅长 ML 研究任务,甚至更好。结果,算法本身变得越来越人性化。另一个事实是,即使这没有发生,如果你有一个单一的模型 - 这是你隐含的愿景 - 该模型的机会被部署在整个经济中做不同的工作,学习如何做工作,继续在工作中学习,学习任何人都可以学习的所有技能,但同时学习所有这些技能,然后结合他们的学习成果,你就有了一个在功能上变得超级智能的模型,即使没有自我撤回,它本身也有这个软件,因为你现在有一个模型,可以完成所有工作经济,人们无法以同样的方式整合我们的智慧。那么你认为巨大的扩张会导致某种智力爆炸吗? Ilya Sutskvi:我认为经济可能会快速增长。我认为通过大规模部署,你可以提出两个相反的论点。一是,一旦你真正达到了这样的程度,你拥有一个能够快速学习做事的人工智能,并且你拥有很多这样的人工智能,除非有某种监管最重要的是(顺便说一句,可能会有),将会有一股强大的力量将其送入经济。但大规模扩张导致经济快速增长的想法,我认为是可能的。问题是它有多快。我认为这很难知道,因为一方面你拥有如此优秀的劳动力。另一方面,世界真的很大,有很多东西,而且这些东西以不同的速度移动。但另一方面,现在人工智能可以……所以我认为非常快的经济增长是可能的。我们会看到各种各样的事情,比如不同的国家有不同的政策,政策更友好的国家会有更快的经济增长。很难预测。 [Alignment] Devarkesh Patel:我认为这是一个非常具体的情况。在极限情况下,我们知道这应该是可能的。如果你有一个与学习有关的东西,似乎人们在身体上应该可以一样好,但要结合其智力 - 结合不同的机会以人类无法做到的方式。人是可能的,数字计算机也是可能的。你只需要把两者结合起来就可以得到这样的东西。这东西看起来也很强啊。经济增长是一个声明。戴森球也有很大的经济增长。但换句话说,你可能会在很短的时间内……在 SSI 上雇用人员,六个月后,他们可能会产生净产出。人们学得很快,而这些东西变得更加聪明,速度非常快。您如何看待这项工作?为什么 SSI 能够做到这一点?我真正想问的是,SSI 的计划是什么。 Ilya Sutskvi:我的想法发生了变化,我现在更看重人工智能的渐进式部署,而不是早期部署。关于人工智能最困难的事情之一,我们谈论的是尚不存在的系统,而且很难想象它们。我认为正在发生的一件事是“感觉”阿吉真的很难。很难感觉到阿吉。我们可以谈论它,但这就像说话当你不老的时候,年老体弱是什么感觉。你可以谈论它,你可以尝试思考它,但这很难,你回到了一个从未发生过的现实。我认为很多关于通用人工智能及其未来力量的问题都来自于它难以想象这一事实。未来的AI将会有所不同。它会很坚强。事实上,人工智能和通用人工智能的全部问题是什么?整个问题就是权力。整个问题就是权力。当力量真的很大时会发生什么?去年我改变了主意的一件事——我的想法的这种改变,我会留出一个错误的余地,也许会在我们作为一家公司的计划上来回走动——如果很难想象,你会怎么做?你必须展示这个东西。你必须展示这个东西。我认为大多数从事人工智能工作的人无法想象它,因为它与人们每天看到的非常不同。我坚持说,我预见到的事情会发生。这是一个预测。我认为,随着人工智能变得更加强大,人们将会改变他们的行为。我们将会看到各种前所未有的事情。我将举一些例子。我认为无论好坏,尖端公司将在所发生的事情中发挥非常重要的作用,政府也是如此。我认为你将会看到的事情,并且你已经看到了它的开始,是激烈的竞争对手公司开始与人工智能安全合作。您可以看到 OpenAi 和 Anthropic 迈出了最初的一小步,但它以前并不存在。这是我在大约三年前的一次演讲中预测到的事情将会发生。我还认为,随着人工智能继续变得更强大、更明显,政府和公众将愿意采取行动。我觉得这是一个非常重要的力量,就是它展现了AI。这是第一点。第二,好的,人工智能正在构建中。需要做什么?我坚持认为将会发生的事情之一是,目前的人们在从事人工智能工作时,我坚持认为人工智能没有感觉的原因是它会犯错误。我认为在某个时候人工智能会开始变得强大。我认为当这种情况发生时,我们将看到所有人工智能公司的做法都将发生巨大变化。他们变得更加偏执。我说这是一个预测,我们拭目以待。让我们看看我是否正确。但我认为这将会发生,因为他们会看到人工智能变得更强大。我认为,现在发生的一切都是因为人们现在看待人工智能,却很难想象人工智能的未来。还有第三件事需要发生。我是从更广泛的角度来说的,不仅仅是从 SSI 的角度,因为你问到了我们公司的情况。问题是,企业应该建立什么目标?他们的目标应该是什么?每个人都在关注的一个重要想法是人工智能的自我意识。为什么会发生这种情况?因为想法比公司少。但我坚持认为有更好的东西值得建造,而且我认为每个人都想要它。这是一个稳定的人工智能,它协调一致并致力于照顾有感知的生命。我认为具体来说,有理由认为构建一个关心有感知生命的人工智能比构建一个只关心人类生命的人工智能更容易,因为人工智能本身是被发送的。如果你想想镜子和人类对动物的同情之类的东西,你可以说它不够大,但它就在那里。我认为这是一个事实,即我们模仿其他人时所使用的神经回路与我们用来模仿自己的神经回路相同,因为这是最有效的方法。 Devarkesh Patel:所以,即使你有一个关心众生的人工智能——我不清楚如果你解决了对齐问题,这就是你应该尝试做的事情——它仍然会是这样的:大多数众生将是 AIS。 AIS 的数量将达到数万亿,最终达到数万亿。人们只能看到生活中很小的一部分。因此,如果不清楚目标是人类对未来文明的某种控制,我不清楚这是否是最好的标准。伊利亚·苏茨克维:确实如此。这可能不是最好的标准。我想说两点。第一,对生命的关心和理解,我认为这是有其可取之处的。应该考虑一下。我认为,为公司在这种情况下使用一个简短的想法清单会很有帮助。这是第二点。第三,我认为如果最强大的超级智能的力量以某种方式被限制住,那将会带来物质上的好处,因为它可以解决许多这些问题。至于如何实现,我不确定,但我想当你真正谈论它时,真正稳定的系统,这将是一个很大的帮助。 Devarkesh Patel:随着对alignNew 的持续讨论,我想更深入地探讨这一点。顶部有多少空间?你对超级智能有何看法?有了这种学习效率的想法,你是不是认为简单地学习新技能或者新知识就非常快了?克利?它有更多的技术库吗?中间是否有一个更强或更大的“它”?如果是这样,你认为与其他人类文明相比,这个东西会像上帝一样,还是感觉像是一种不同的智慧,或者不同的思维方式? Ilya Sutskvi:这是一个不同的人有不同直觉的领域。我认为它肯定会非常强大。我认为可能发生的情况是,将会同时创建许多这样的 ng AI。我认为,如果星团足够大——就像星团真的有一个大陆那么大——那么物质就会非常强大,而且确实如此。如果你有一个大陆大小的集群,人工智能就会非常强大。我可以告诉你的是,如果你谈论的是非常强大的 AIS,真的非常强大,如果它们能够经历某种障碍,或者拥有某种协议之类的东西,那就太好了。超级智能有哪些担忧?解释这个骗局的一种方法欧洲核子研究中心?如果你想象一个系统足够强大,足够强大——你可以说你必须做一些好事,比如专门照顾生命的发送者——也许我们不喜欢结果。这是真的。顺便说一句,也许答案是你不会在 karani 中构建 RL 代理,这意味着我会指出几点。我认为人类是半强化学习(semi-RL)智能体。我们追逐奖励,然后情绪或其他事物让我们厌倦奖励,我们追逐不同的奖励。市场是一个非常视觉化的智能体。进化也是如此。进化在某些方面非常聪明,但在另一些方面却非常愚蠢。事实上,政府被设计成三个政党之间永无休止的斗争,这一事实也产生了影响。所以我认为类似的事情。另一件使讨论变得复杂的事情是我们正在谈论不存在的系统,我们不知道如何构建的系统。那是另一回事,这也是我的信念。我认为人们现在所做的就是单向前进然后彼得出来了。它会继续改进,但它也不是“它”。我们不知道如何构建“那个东西”,很大程度上取决于理解可靠的一般性。我还想说一件事。关于协调困难,你可以说的一件事是你了解人们价值观的能力很脆弱。那么你优化它们的能力就很脆弱。你真的学会了优化它们。你不能说:“这些不都是不可靠概括的例子吗?”为什么人们似乎做得更好?如果概括性更好怎么办?在这种情况下发生了什么?它的作用是什么?但这些问题仍然没有答案。 Devarkesh Patel:人们应该如何想象成熟的人工智能是什么样子?您描述了人工智能可能如何发展。我们将进行这种持续的研究。 AI将会非常强大。也许会有很多不同的AI。您如何看待跨洲规模的计算智能的发展?那有多危险?我们怎样才能做到呢?很危险吗?我们如何以保护平衡的方式做到这一点,因为那里可能存在失火的人工智能和坏人? Ilya Sutskvi:这就是我喜欢“关爱生命-阿勒人工智能”的原因之一。我们可以争论这是好还是坏。但如果这些引人注目的系统中的前n个是关心、爱人,或者其他什么,关心有感知的生命,那么显然这也必须发生。它必须实现。因此,如果前 N 个系统实现了这一点,那么我可以看到事情进展顺利,至少在很长一段时间内如此。然后是长期会发生什么的问题。怎样才能取得持久的成果呢?我想那里也有一个答案。我不喜欢这个答案,但必须考虑一下。从长远来看,你可以说,“好吧,如果你有一个存在强人工智能的世界,那么从短期来看,你可以说你有普遍的高收入。你们都有普遍的高收入,我们都做得很好。”但佛教徒怎么说呢? “变化是不变的。”事情正在发生变化。有一些东西关于政府、政治结构,它会发生变化,因为这些东西都有保质期。一些新形式的政府出现并运作,但一段时间后就停止运作。这是我们经常看到的。所以我认为为了长期平衡,一种方法是你可以说每个人都会有一个人工智能来执行他们的命令,并且只是操作系统如果它可以永远持续下去,那就是真的。但这样做的缺点是,人工智能会去为那个人赚钱,在政治舞台上倡导他们的需求,也许会写一份小报告,说:“好吧,这就是我所做的,这就是情况,”这个人说,“太好了,保留它。”但那个人已经不再是参与者了。那么你可以说这是某种情况。我将在开头说我不喜欢这个解决方案,但它是一个解决方案。解决方案是人类通过某种neurink++(脑机接口升级)成为半人工智能。因为结果是现在的AI理解某事,我们理解它,因为现在理解是通过它发送的。所以现在如果人工智能处于某种情况,你自己就完全负责,就像在那种情况下一样。我认为这是一个平衡的答案。德瓦克什·帕特尔:我想知道数百万年甚至数十亿年前在完全不同的环境中进化出的情感是否仍然指导着我们今天的行动,这是否是成功协调的一个例子。为了明确我的意思——我不知道称其为价值函数还是奖励函数更准确——但脑干中有一条指令说:“与更成功的人交配”。大脑皮层是对现代背景的理解,下一节将介绍成功的含义。但脑干与大脑皮层保持一致,并说:“无论你认为成功是什么——我还不够聪明,无法理解那是什么——你仍然会追求这个指令。” Ilya Sutskvi:我想是的,我有一个更通用的阿尔点。事实上,进化如何编码高阶偏好仍然是一个谜。很容易理解,进化会让我们渴望闻起来香的食物,因为气味是一种化学物质,所以就选择那种化学物质。很容易想象进化会这样做。但进化也给了我们所有这些社会偏好。我们非常关心社会对我们的积极评价。我们关心身体健康。我强烈地感觉到我们拥有的所有社会直觉都是被构建的。我不知道进化是如何做到的,因为它是大脑中代表的高级概念。假设你关心一些社交信息,而且它不是像气味这样的低级信号。这不是传感器的事。大脑必须进行多重处理,结合许多信息才能了解社会上正在发生的事情。至少,进化论说,“这是你应该关心的。”这是怎么做到的?而且它做得很快。我们关心的所有这些复杂的社会事物,我认为它们已经进化了完全地。进化可以轻松地对这种更高层次的愿望进行硬编码。我不知道有什么好的假设来解释这是如何完成的。我一直在考虑一些想法,但没有一个能让我满意。 Devarkesh Patel:特别令人印象深刻的是,如果这是你生活中的一个愿望,那么它就有意义,因为你的大脑很聪明。你想要学习智力的愿望是有道理的。也许这不是你的观点,但理解它的一种方法是,欲望是内置于基因组中的,而基因组是 notalino 但至少你会认识到它。甚至不清楚如何定义该特征以及如何将其构建到基因中。 Ilya Sutskvi:通常,或者换句话说。如果你考虑一下基因组中可用的工具,它会说:“好吧,这是构建大脑的秘诀。”你可能会说,“这是将多巴胺神经元连接到嗅觉传感器的方法。”如果某样东西闻起来很香,你就会想吃它。我可以想象基因组会这样做。我的观点是它是很难想象基因组说你应该处理你的整个大脑,你大脑的很大一部分正在做的一些复杂的计算。这只是我的意见。我可以给你一个关于它是如何完成的猜测,然后我会解释为什么这个猜测可能是错误的。大脑有不同的区域,我们有一个皮质。它具有大脑的所有区域。皮层是同质的,但皮层中的大脑区域和神经元通常只与邻近的区域进行交流。这解释了为什么大脑有不同的区域。因为如果你想做某种语音处理,所有处理语音的神经元都必须相互交谈。由于神经元几乎只与它们的近邻进行交流,因此它必须是一个区域。所有区域对于每个人来说基本上都是相同的位置。所以也许进化已经在大脑中硬编码了一个位置。所以它说,“哦,当大脑的 GPS 坐标是某某时,当那里有激活时,那就是你应该关心的。”或许这就是进化的作用,因为这是进化工具箱的一部分。 Devarkesh Patel:是的,尽管有一些例子,例如 mga 人天生失明,他们的皮质区域被不同的含义占据。我不知道,但如果需要视觉信号的欲望或奖励功能不再在大脑皮层不同区域被招募的人身上发挥作用,我会感到惊讶。比如说,如果你不再有视力,你还能感觉到我喜欢我周围的人吗?通常也有视觉提示。 Ilya Sutskvi:我完全同意这一点。我认为这个理论有更强有力的反驳。有些人在孩童时期就被切除了一半的大脑,但他们仍然保留着所有的大脑区域。但不知何故,它们都转移到了一个半球,这表明大脑区域的位置并不固定,所以这一理论是错误的。如果这是真的那就太酷了,但事实并非如此。所以我认为这是一个谜。但这是一个有趣的谜y。事实是,进化以某种方式赋予我们非常可靠地处理社会事务的能力。即使是有各种奇怪的精神状况、缺陷和情绪问题的人也往往会处理它。 [“我们是一家纯粹的研究公司”] Devarkesh Patel:SSI 计划采取哪些不同的做法?也许您的计划是在这个时候成为顶级公司之一。也许,您创办 SSI 是因为您认为,“我觉得我有一种其他公司没有的方法可以安全地做到这一点。”那有什么区别呢? Ilya Sutskvi:我会这样描述,有一些我认为有前途的想法,我想研究它们,看看它们是否真的有前途。这真的很简单。这是一种尝试。如果这些想法是正确的——这些想法是我们将谈论的一般理解——我想我们将会有一些重要的东西。它们正确吗?我们正在研究。我们是一家纯粹的“研究时代”公司。我们正在取得进展。我们确实取得了很大的进步去年,但我们需要继续取得更多进展,进行更多研究。我就是这么看的。我认为这是一种发出声音和参与者的尝试。 Devarkesh Patel:你的联合创始人兼前首席执行官最近离开 Meta,人们问,“好吧,如果发生很多突破,那似乎不太可能。”我想知道你如何回应。 Ilya Sutskvi:在这方面,我只是想重写一些可能被遗忘的事实。我认为这些提供背景的事实解释了这种情况。 MyWe 以 320 亿美元的估值筹集资金,然后 Meta 进来并提出收购我们,我拒绝了。但从某种意义上说,我的前联合创始人说是的。因此,他也能够享受到很多最近的流媒体动力,他是 SSI 中唯一加入 Meta 的人。 Devarkesh Patel:听起来 SSI 的计划是在人类历史上这个非常重要的时刻拥有超人的智慧时成为一家尖端公司。你有什么想法吗人类智慧可能吗?但其他公司也会尝试自己的想法。 SSI 平滑超级智能发展的方法有何独特之处? Ilya Sutskvi:SSI 之间最大的区别是技术方法。我们有不同的技术路线,我认为这是值得的,我们正在追逐它。我认为策略最终会积累起来。我认为这些策略将会相互联系,在某个时刻,随着人工智能变得更强大,每个人的策略应该是什么会变得越来越清晰。它应该是这样的:你需要找到某种方式来相互沟通,并且你希望你的第一个真正的超级人工智能能够保持一致,并以某种方式关心有感知的生命,关心人民,民主,或这些特征的某种组合。我认为这是每个人都应该努力的事情。这就是 SSI 所努力的目标。我认为到了这个时候,如果这还没有发生的话,所有其他公司都会意识到他们正在努力实现这一目标。我的目标。我们会看到。我认为随着人工智能变得更加强大,世界将会真正改变。我认为事情将会非常不同,人们的行为也会很奇怪。 Devarkesh Patel:说到预测,您对您所描述的可以像人类一样学习并从而成为超人的系统有何预测? Ilya Sutskvi:我正在考虑 5 到 20 年。德瓦克什·帕特尔:五到二十年?伊利亚·苏茨克维:是的。 Devarkesh Patel:我只是想减去你眼中的世界。就像,在其他公司继续当前的路线然后停滞不前之前,我们还有几年的时间。这里的“站”是指他们的收入不超过几千亿美元吗?您如何看待停滞的含义? Ilya Sutskvi:我认为停滞看起来......在所有不同的公司中几乎都是一样的。可能是这样的。我不确定,因为我认为即使他们不搬家,我认为这些公司也能产生惊人的收入。或许不是利润,因为他们必须努力使自己与众不同,但利润肯定是存在的。 Devarkesh Patel:但是你在模型中暗示的是,当正确的解决方案出现时,所有公司都会趋同。我想知道你为什么认为是这样。 Ilya Sutskvi:我更多地谈论的是对齐技术中的聚集。我认为链接技术线也可能发生,但我指的是链接对齐技术。应该做什么? Devarkesh Patel:我只是想了解您如何看待未来的发展。现在,我们有这些不同的公司,您希望它们的方法能够继续产生收入,但不可否认的是,这种类人的学习器。所以现在我们有不同的分支机构ng公司。有思考机器,还有很多其他实验室。也许其中之一找到了正确的方法。但当他们的产品推出后,其他人就清楚如何去做。 Ilya Sutskvi:我认为这不会很清楚ar 如何做到这一点,但很明显,其他事情是可能的,并且该信息。人们已经测试了它是如何工作的。但我认为这里没有提到、没有讨论的一件事是,随着人工智能能力的每一次增强,我认为做事的方式都会发生某种变化,但我不知道是哪一种。我认为这很重要,但我无法解释其他是什么。 Devarkesh Patel:默认情况下,您会期望拥有该模型的公司获得所有这些好处,因为他们拥有基于世界知识构建实践的模型。有没有理由认为这种好处是广泛分布的,而不是仅仅落入第一个进行这项持续研究的任何一家模范公司的手中? Ilya Sutskvi:我认为这将会发生。首先,我们来看看AI过去是如何发展的。一家公司先行一步,另一家公司蜂拥而至,过了一段时间,他们也做了类似的事情,然后他们就开始竞争并推动价格。所以我认为从市场角度来看,类似的事情也会发生。顺便说一句,我们正在谈论奇妙的世界。什么是美好的世界?而是我们拥有强大的类人学习者,而且……顺便说一句,也许我们还没有讨论过关于超级智能人工智能规格的另一件事,我认为值得考虑。也就是说,如果你使它具体化,它就会变得有用且具体。你可以拥有很多专家、超级智能的人工智能。但假设你有很多这样的人工智能,并且一家公司从它们身上赚了很多钱。然后其他公司就会加入并开始竞争。比赛方式为专家比赛。竞争喜爱专家。你可以在市场上看到它,也可以在进化中看到它。你将有许多不同的利基市场,并且你将有许多不同的公司覆盖不同的利基市场。在这个世界上,我们可以说,一家人工智能公司在经济活动这一非常复杂的领域表现得更好y,而另一家公司在另一个领域更好。第三家事务所非常擅长诉讼。 Devarkesh Patel:这样的人体研究所暗示的内容是否反驳了这一点?也就是说,可以知道... ilya sutskvi:可以,但是你积累了学习。你有很大的投资。需要大量的计算能力才能真正非常擅长这一点,才能真正变得非凡。其他人需要大量的计算能力和大量的经验才能真正擅长别人。你已经应用了大量的人类学习来实现这一目标,但现在你正处于人们说的最高点,“听着,我不想从头开始并找出你学到了什么。” Dearkesh Patel:我认为需要许多不同的公司同时启动人形持续学习代理,这样他们就可以在不同的分支中开始树搜索。但是,如果一家公司可以先找到那个代理人,或者先找到那个学生,那么看起来……好吧,如果你考虑一下经济中的每一份工作,都有机会找到现在,每项工作似乎对公司来说都是可行的。 Ilya Sutskvi:这是一个有效的论点。我强烈的直觉是它不会那样工作。争论说事情会朝那个方向发展,但我强烈的直觉告诉我不会。从理论上讲,理论和实践没有区别。实际上,是有区别的。我认为这将是其中一种情况。 Devarkesh Patel:有很多人的自我完善模型,从字面上清楚地表明,我们将在服务器上拥有一百万个 Ilias,以及不同的想法,这将导致超级智能的快速发展。您对自己所做的事情的共性有直觉吗?复制 ilya 的优点是什么?伊利亚·苏茨克维:我不知道。我认为回报肯定会递减,因为你需要的是有不同想法的人,而不是同一个人。我不确定如果您拥有我的原版,您会获得多少附加值。为别人着想的人,就是你想要的。 [自玩和多年龄nts] Devarkesh Patel:当你查看不同的模型时,为什么大规模语言模型(LLMS)彼此如此相似,即使是由完全不同的公司发布并在潜在不重叠的数据集上进行训练的? Ilya Sutskvi:也许数据集并不像看起来那样不重叠。 Devarkesh Patel:但从某种意义上说,尽管未来个人的生产力可能不如人工智能,但人类团队比人工智能团队具有更多多样性可能是有道理的。然而,我们将怎样激发人工智能有意义的多样性呢?我觉得仅仅提高温度(温度)只会导致无意义的结果。你需要不同的科学家有不同的偏见或不同的想法。如何在人工智能代理中获得这种多样性? Ilya Sutskvi:所以我认为没有变化的原因是预训练。所有假装模型几乎都是相同的,因为它们假装相同的数据。现在,强化学习和训练后是一些分化的开始,因为不同的人们有不同版本的强化学习训练。 Devarkesh Patel:我听说你过去暗示过自我对弈是获取数据或将智能体与其他同样智能的智能体进行匹配以开始学习的一种方式。我们应该如何思考为什么不呢?公共提案是否适合法学硕士? Ilya Sutskvi:我想说两件事。我认为自我对弈很有趣,因为它提供了一种仅使用计算能力而不是数据来创建模型的方法。如果您认为数据是最终瓶颈,那么利用计算能力就非常有趣。所以这很有趣。问题在于,玩游戏本身,至少是以前的方式——当你的代理以某种方式相互竞争时——只对发展某些技能有好处。太窄了。它只对谈判、冲突、一些社交技能、制定战略之类的事情有好处。如果您关心这些技能,自我对弈可能会有所帮助。其实我觉得肯定是房子本身就解决了,just 以不同的形式。就像辩论“谚语验证者”一样,你有某种作为法官的法学硕士,他也有动力在你的工作中发现错误。你可以说这不完全是游戏本身,但我相信这是人们所做的相关敌人设置。真正的自我博弈是智能体之间更广泛的竞争博弈的一个特例。对竞争的自然反应是尝试与众不同。因此,如果你把一群特工聚集在一起,你对他们说,“你必须解决一个问题,而你是一名特工,你正在研究其他人正在做什么,”他们说,“好吧,如果他们有这种方法,我就不应该追求它。我应该追求不同的东西。”所以我认为这样的事情也可以为多元化战略创造激励。 【研究的味道】Devarkesh Patel:最后一个问题:研究的味道是什么?你似乎被认为是世界上对人工智能研究最有品味的人。您是深度学习历史上所有重大事件的共同作者,从 Alexnet 到 GPT-3 及更高版本。它是什么 您如何描述您是如何得出这些想法的? Ilya Sutskvi:我个人可以对此发表评论。我认为人们的做法不同。指导我个人的是关于人工智能应该是什么样子的美学,即思考人是什么样的,但要正确思考。人们很容易对人类的感受产生错误的思考,但正确的思考意味着什么呢?让我举一些例子。直接受大脑启发的人工神经元的想法是一个好主意。为什么?因为你说大脑有不同的组织和脑沟,但脑沟可能并不重要。为什么我们认为神经元很重要?因为他们有很多。感觉不错,所以你需要神经元。您需要某种局部学习规则来改变神经元之间的连接。大脑这样做感觉很合理。分布式表示的思想。大脑对经验做出反应,因此我们的神经元的想法网络必须从经验中学习。大脑从经验中学习,神经网络也必须从经验中学习。你问自己,什么是必要的,什么是非必要的?事情应该怎样。我认为这对我有很大的指导,从多个角度思考,几乎寻找美丽、优雅和简单。唉,这里没有丑陋的地方。这就是大脑中灵感的美丽、简洁、优雅、正确。所有这些事情必须同时存在。它们越多,你对自上而下的信念就越有信心。当实验结果对你不利时,这种自上而下的信念会让你继续前进。因为如果你始终相信数据,那么有时你会做正确的事情,但会出现错误。但你不知道有一个错误。您如何判断是否存在错误并且应该继续调试,或者您是否得出结论,您正朝着错误的方向前进?这是一种自上而下的信念。你可以说应该是这样的。所以像这样的事情必须行得通,所以我们继续这样做。这是自上而下的信念,基于大脑的多面美和灵感。 Devarkesh Patel:好的,我们就到此为止。伊利亚·苏茨克维:非常感谢。 Devarkesh Patel:Ilya,非常感谢 Ilya Sutskvi:好的。非常感谢。德瓦克什·帕特尔:太棒了。 Ilya Sutskvi:是的,我很喜欢。德瓦克什·帕特尔:是的,我也是。
下一篇:没有了