本文经授权转自公众号腾讯科技(ID:qqtech)
2023年6月9日的北京智源大会上开幕式上,机器学习三巨头之一杨立昆(Yann Lecun)进行了远程致辞,发表了名为《朝向能学习, 思考和计划的机器进发》( Towards Machines that can Learn, Reason, and Plan)的演讲。
作为一个从ChatGPT诞生之日起就对它嘲讽连连,认为它没有什么新意。在今天的讲座中,身处凌晨4点巴黎的杨立昆依然斗志满溢,在演讲中拿出了他反击GPT的逻辑:自回归模型根本不行,因为它们没有规划,推理的能力。单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉,错误的问题。在输入文本增大的时候,错误的几率也会成指数增加。
目前流行的AutoGPT,LOT之类看起来可以拆解任务,分步解释复杂问题的语言拓展模型让大语言模型看起来有了规划能力。对此杨立昆也反唇相讥,认为那不过是它们在借助搜索和其他工具来让自己看起来可以做到规划和推理而已,完全不是靠自身对世界的理解。
性能惊人,但使用范围狭窄。完全不如人类智能,而且存在着无法解决的Bug。这就是杨立昆对当前人工智能的判断。
那想要通向AGI,人工智能的下一步在哪里呢?
杨立昆给出的答案是世界模型。一个不光是在神经水平上模仿人脑的模型,而是在认知模块上也完全贴合人脑分区的世界模型。它与大语言模型最大的差别在于可以有规划和预测能力(世界模型),成本核算能力(成本模块)。
通过世界模型,它可以真正的理解这个世界,并预测和规划未来。通过成本核算模块,结合一个简单的需求(一定按照最节约行动成本的逻辑去规划未来),它就可以杜绝一切潜在的毒害和不可靠性。
但这个未来如何实现?世界模型如何学习?杨立昆只给了一些规划性的想法,比如还是采用自监督模型去训练,比如一定要建立多层级的思维模式。他也承认之前并没有深度学习的训练做到了这些,也没人知道怎么做。
来自清华大学的朱军教授看着这个模型估计是有点发懵,这个架构太像传统人工智能的那种符号学派的理想模型了。在问答环节还问了一句有没有考虑符号学派和深度学习结合的可能。
这个曾经挑战明斯克符号主义统治十几年,在无人认可之时仍坚持机器学习之路的杨立昆的回答很简单:“符号逻辑不可微,两个系统不兼容”。
以下为腾讯新闻编辑整理的杨立昆报告核心发言及与朱军教授全部QA的实录:
机器学习的缺陷
我要说的第一件事是:与人类和动物相比,机器学习不是特别好。几十年来,我们一直在使用监督式学习,这需要太多的标签。强化学习效果不错,但需要大量的训练来学习任何东西。当然,近年来,我们一直在使用大量的自我监督学习。但结果是,这些系统在某个地方不太专精,而且很脆弱,它们会犯愚蠢的错误,它们不会真正地推理,也不会计划。当然它们的反应确实非常快。而当我们与动物和人类进行比较时,动物和人类可以极其迅速地做新的任务,并理解世界是如何运作的,可以推理和计划,他们有某种程度的常识,而机器仍然没有。而这是在人工智能的早期就发现的问题。
这部分是由于目前的机器学习系统在输入和输出之间基本上有恒定数量的计算步骤。这就是为什么它们真的不能像人类和一些动物那样推理和计划。那么,我们如何让机器理解世界是如何运作的,并像动物和人类那样预测其行为的后果,可以进行无限步数的推理链,或者可以通过将其分解为子任务序列来计划复杂的任务?
这就是我想问的问题。但在说这个问题之前,我先谈一下自我监督学习,以及在过去几年里它确实已经占领了机器学习的世界。这一点已经被倡导了相当长的时间,有七八年了,而且真的发生了,我们今天看到的机器学习的很多结果和成功都是由于自监督学习,特别是在自然语言处理和文本理解和生成方面。
那么,什么是自监督学习?自监督学习是捕获输入中的依赖关系的想法。因此,我们不是要把输入映射到输出。我们只是被提供了一个输入。在最常见的范式中,我们盖住一部分输入,并将其提供给机器学习系统,然后我们揭示输入的其余部分,然后训练系统来捕捉我们看到的部分和我们尚未看到的部分之间的依赖关系。有时是通过预测缺失的部分来完成,有时不完全是预测。
而这一点在几分钟内就能解释清楚。
这就是自我监督学习的理念。它被称为自我监督,因为我们基本上使用监督学习方法,但我们将它们应用于输入本身,而不是与人类提供的单独输出相匹配。因此,我在这里展示的例子是一个视频预测,你向一个系统展示一小段视频,然后你训练它来预测视频中接下来会发生什么。但这不仅仅是预测未来。它可能是预测中间的那种数据。这种类型的方法在自然语言处理方面取得了惊人的成功,我们最近在大型语言模型中看到的所有成功都是这个想法的一个版本。
好的,所以我说,这种自我监督的学习技术包括输入一段文本,删除该文本中的一些单词,然后训练一个非常大的神经网络来预测缺失的那个单词。在这样做的过程中,神经网络学会了一个良好的内部表征,可用于随后的一些监督任务,如翻译或文本分类或类似的东西。因此它已经取得了令人难以置信的成功。同样成功的是生成式人工智能系统,用于生成图像、视频或文本。在文本的情况下,这些系统是自回归的。们使用自我监督学习的训练方式不是预测随机缺失的单词,而是只预测最后一个单词。因此,你拿出一个词的序列,遮住最后一个词,然后训练系统预测最后一个词。
它们不一定是词,而是子词单位。一旦系统在大量的数据上进行了训练,你就可以使用所谓的自回归预测,这包括预测下一个标记,然后将该标记转移到输入端,然后再预测下一个标记,然后将其转移到输入,然后重复这个过程。因此,这就是自回归LLMs,这就是我们在过去几个月或几年中看到的流行模型所做的。其中一些来自我在Meta的同事,在FAIR、BlenderBot、Galactica和Lama,这是开源的。斯坦福大学的Alpaca,是在Lama基础上的改进。Lambda,谷歌的Bard,DeepMind的Chinchilla,当然还有OpenAI的Chet、JVT和JVT4。如果你在类似一万亿文本或两万亿文本上训练它们,这些系统的性能是惊人的。
但最终,他们会犯非常愚蠢的错误。他们会犯事实错误、逻辑错误、不一致的问题。他们的推理能力有限,会使用毒化的内容,他们对潜在的现实没有知识,因为他们纯粹是在文本上训练的,这意味着人类知识的很大一部分是他们完全无法接触到的。而且他们无法真正规划他们的答案。关于这一点有很多研究。然而,这些系统对于写作辅助工具以及生成代码,帮助程序员编写代码,效果都惊人的好。
所以你可以要求他们用各种语言写代码,而且效果很好。它会给你一个很不错的起点。你可以要求他们生成文本,他们同样可以阐释或说明故事,但这使得该系统作为信息检索系统或作为搜索引擎或如果你只是想要事实性的信息,并不是那么好。因此,它们对于写作帮助、初稿的生成、统计数字方面是很有帮助的,特别是如果你不是你所写语言的母语者。考虑到最近发生的事儿,他们不适合制作事实性和一致性的答案,因此他们必须为此进行再训练。而他们在训练集中可能会有相关的内容,这就保证了他们会有正确的行为。
然后还有一些问题,如推理、计划、做算术和诸如此类的事情(他们都不擅长),为此他们会使用一些工具,如搜索引擎计算器数据库查询。因此,这是目前一个非常热门的研究课题,即如何从本质上让这些系统调用工具(来完成他们不擅长的事情),这就是所谓的扩展语言模型。而我和我在FAIR的一些同事共同撰写了一篇关于这个话题的评论文章,关于正在提出的各种扩展语言模型的技术:我们很容易被它们的流畅性所迷惑,以为它们很聪明,但它们其实并不那么聪明。他们在检索记忆方面非常出色,大约是这样。但同样,他们对世界如何运作没有任何了解。自回归模型还有一种重大缺陷。如果我们想象所有可能的答案的集合:所以输入词组的序列,是一棵树,在这里用一个圆圈表示。但它实际上是一棵包含所有可能的输入序列的树。在这棵巨大的树中,有一个小的子树,对应着对所给提示的正确答案。如果我们设想有一个平均概率e,即任何产生的标记都会把我们带到正确答案的集合之外,而产生的错误是独立的。那么xn的答案正确的概率是1-e的n次方。
这意味着有一个指数级发散的过程会把我们带出正确答案的序列树。而这是由于自回归预测过程造成的。除了让e尽可能的小之外,没有办法解决这个问题。因此,我们必须重新设计系统,使其不会这样做。而事实上,其他人已经指出了其中一些系统的局限性。因此,我与我的同事吉格多-布朗宁共同写了一篇论文,这实际上是一篇哲学论文,他是一位哲学家,这篇论文是关于只使用语言训练人工智能系统的局限性。
事实上,这些系统没有物理世界的经验,这使得它们(的能力)非常有限。有一些论文,或者是由认知科学家撰写的,比如左边这个来自麻省理工学院小组的论文,基本上说与我们在人类和动物身上观察到的相比,系统拥有的智能是非常有限的。还有一些来自传统人工智能的研究者的论文,他们没有什么机器学习的背景。他们试图分析这些机器学习系统的规划能力,并基本上得出结论,这些系统不能真正规划和推理,至少不是以人们在传统人工智能所理解的那种方式搜索和规划。那么,人类和动物是如何能够如此迅速地学习的呢?我们看到的是,婴儿在出生后的头几个月里学习了大量的关于世界如何运作的背景知识。他们学习非常基本的概念,如物体的永久性,世界是三维的这一事实,有生命和无生命物体之间的区别,稳定性的概念,自然类别的学习。以及学习非常基本的东西,如重力,当一个物体没有得到支撑,它就会掉下来。根据我的同事埃马纽埃尔-杜普绘制的图表,婴儿大约在九个月大的时候就学会了这个。
因此,如果你给一个五个月大的婴儿看,这里左下方的场景,一辆小车在平台上,你把小车从平台上推下来,它似乎漂浮在空中,五个月大的婴儿不会感到惊讶。但是10个月大的婴儿会非常惊讶,像底部的小女孩一样看着这一幕,因为在此期间,他们已经知道物体不应该停留在空中。他们应该在重力作用下坠落。因此,这些基本概念是在生命的头几个月学到的,我认为我们应该用机器来复制这种能力,通过观察世界的发展或体验世界来学习世界如何运作。那么,为什么任何青少年都可以在20个小时的练习中学会开车,而我们仍然至少在没有大量的工程和地图以及激光雷达和各种传感器的情况下,不会有完全可靠的5级自动驾驶。所以很明显,自回归系统缺少一些很重要的东西。为什么我们有流畅的系统,可以通过法律考试或医学考试,但我们却没有可以清理餐桌和装满洗碗机的家用机器人,对吗?这是任何10岁的孩子都可以在几分钟内学会的事情,而我们仍然没有机器可以近似的做这些事。因此,我们显然缺少一些极其重要的东西。在我们目前拥有的人工智能系统中,我们远远没有达到人类水平的智能。
机器学习的未来挑战
那么,我们要如何做到这一点呢?事实上,我已经有点确定了未来几年人工智能的三大挑战:
学习世界表征及预测的模型。最好是使用自我监督学习。
学习推理:这与心理学的想法相对应,例如丹尼尔-卡汉曼的想法,即系统2与系统1。因此,系统1是对应于潜意识计算的人类行动或行为,是你不假思索做的事情。然后系统2是你有意识地做的事情,你使用你的全部思维能力。而自回归模型基本上只做系统1,根本就不太聪明。
最后一件事是通过将复杂的任务分解成简单的任务,分层地推进和规划复杂的行动序列。
然后,大约一年前,我写了一篇愿景论文,我把它放在公开评论中,请你们看看。这基本上是我对我认为人工智能研究在未来10年应该走向的建议。它是围绕着这样一个想法,我们可以把各种模块组织到所谓的认知架构中,在这个系统中的核心是世界模型。
世界模型:通往AGI之路
世界模型是系统可以用来基本上想象一个场景的东西,想象将会发生什么,也许是其行为的后果。因此,整个系统的目的是根据它自己的预测,使用它的文字模型,找出一连串的行动,以最小化一系列的成本。成本你可以认为是衡量这个代理人的不适程度的标准。顺便说一下,这些模块中的许多在大脑中都有相应的子系统。成本模块是我们(大脑里)的世界模型——前额叶皮层,短期记忆对应着海马体;行为者可能是前运动区;感知系统是大脑的后部,所有传感器的感知分析都在这里进行。
这个系统的运作方式是通过它可能被储存在记忆中的以前对世界的想法,去处理当前世界的状态。然后你用世界模型来预测如果世界接着运转继会发生什么,或者它作为代理将采取的行动的后果是什么。这是在这个黄色的行动模块里面。行动模块提出一连串的行动。世界模型模拟世界并计算出这些行动的后果会发生什么。然后计算出一个成本。然后将要发生的是,系统将优化行动序列,以便使世界模型最小化。
所以我应该说的是,每当你看到一个箭头朝向一个方向时,你也有梯度在向后移动。所以我假设所有这些模块都是可分的,我们可以通过反向传播梯度来推断行动序列,从而使成本最小化。这不是关于参数的最小化——这将是关于行动的最小化。这是对潜在变量的最小化。而这是在推理时进行的。
因此,有两种真正的方式来使用该系统。它类似于系统1,我在这里称之为模式1,基本上它是反应性的。系统观察世界的状态,通过感知编码器来运行它,生成一个世界状态的概念,然后直接通过策略网络来运行它,而行为者只是直接产生一个行动。
模式2是你观察世界并提取世界状态的表征为0。然后,系统想象出从a[0]到一个很长T(时间)的一系列行动。这些预测的状态被送入一个成本函数,而系统的整个目的基本上是找出行动的序列,根据预测使成本最小。因此,这里的世界模型在每个时间步骤中重复应用,本质上是从时间T的世界表征中预测出时间T+1的世界状态,并想象出一个拟议的行动。这个想法非常类似于优化控制领域的人们所说的模型预测优化。在深度学习的背景下,有许多使用这个想法来规划轨迹工作的模型被提出来过。
这里的问题是我们到底如何学习这个世界模型?如果你跳过这个问题,我们期望做的是一些更复杂的版本,我们有一个分层系统,通过一连串的编码器,提取世界状态的更多和更抽象的表示,并使用不同层次预测器的世界模型,在不同的扰动水平预测世界的状态,并在不同的时间尺度上进行预测。在这里的较高层次是指举例来说,如果我想从纽约去北京,我需要做的第一件事就是去机场,然后搭飞机去北京。因此,这将是计划的一种高层次的表示。最终的成本函数可以代表我与北京的距离,比如说。然后,第一个行动将是:去机场,我的状态将是,我在机场吗?然后第二个行动将是,搭飞机去北京。我怎么去机场呢?从,比方说,我在纽约的办公室。我需要做的第一件事是,到街上去拦一辆出租车,并告诉他去机场。我如何走到街上去?我需要从椅子上站起来,我去出口处,打开门,走到街上,等等。然后你可以这样想象,把这个任务一直分解到毫秒级,按毫秒级控制,你需要做的就是完成这个规模。
因此,所有复杂的任务都是以这种方式分层完成的,这是一个大问题,我们今天不知道如何用机器学习来解决。所以,我在这里展示的这个架构,还没有人建立它。没有人证明你可以使它发挥作用。所以我认为这是一个很大的挑战,分层规划。
成本函数可以由两组成本模块组成,并将由系统调制以决定在任何时候完成什么任务。所以在成本中有两个子模块。有些是那种内在的成本,是硬性规定的、不可改变的。你可以想象,那些成本函数将实施安全护栏,以确保系统行为正常,不危险,无毒等等。这是这些架构的一个巨大优势,即你可以在推理的时候把成本进行优化。
你可以保证那些标准,那些目标将被强制执行,并将被系统的输出所满足。这与自回归LLM非常不同,后者基本上没有办法确保其输出是好的、无毒的和安全的。
杨立昆 X 朱军 QA 环节
朱军:
你好,LeCun教授。很高兴再次见到你。那么我将主持问答环节。首先再次感谢你这么早起来做了这个富含思想的研讨会报告,并提供了这么多见解。考虑到时间的限制,我选择了几个问题来问你。
正如你在演讲中讨论到生成型模型有很多问题,大多数我都同意你的看法,但是关于这些生成式模型的基本原则方面,我还是有一个问题要问你。生成模型就其定义来说,就是会输出多种的选择。另外,当我们应用生成模型的多样性时,创造性是一个理想的属性。所以我们经常乐见用模型来输出多样化的结果。这是否意味着实际上像事实错误或不合逻辑的错误,不一致的地方,对于这样的模型来说是不可避免的?因为在很多情况下,即使你有数据,数据也可能包含了矛盾的事实。你也提到了预测的不确定性。所以这是我的第一个问题。那么你对此有什么想法?
杨立昆:
没错。所以我不认为自回归预测模型、生成模型的问题是可以通过保留自回归生成来解决的。我认为这些系统本质上是不可控的。因此,我认为它们必须被我提出的那种架构所取代,即在推理中包含时间,有一个系统去最优化成本和某些标准。这是使它们可控、可引导、可计划的唯一方法,即系统将能够计划出它们的答案。你知道当你在做一个像我刚才那样的演讲时,你会计划演讲的过程,对吗?你从一个点讲到另一个点,你解释每个点。当你设计演讲时,你在脑子里会计划这些,而并不是(像大语言模型一样)一个字接一个字地即兴演讲。也许在较低的(行为)水平上,你是即兴创作,但在较高的(行为)水平上,你是在计划。所以,计划的必要性真的很明显。而人类和许多动物有能力进行规划的事实,我认为这是智力的一个内在属性。所以我的预测是,在相对较短的几年内--当然是在5年内--没有脑子正常的人会接着用自回归LLM。这些系统将很快被抛弃。因为它们是无法被修复的。
朱军:
好的。我想另一个关于控制的问题:在你的设计和框架中,一个关键部分是内在成本模块,对吗?所以它的设计基本上是为了决定代理人行为的性质。看了你的工作文件中的开放性观点后,我和网上的一个评论有共同的担忧。这个评论说,主要是这个模块没有按照规定工作。也许代理最后[屏幕冻结]了。
杨立昆:
保证系统安全的成本模块不会是一个微不足道的任务,但我认为这将是一个相当明确的任务。它需要大量仔细的工程和微调,其中一些成本可能要通过训练获得,而非仅仅通过设计。这与强化学习中的策略评估(Actor-Crtic结构中的Ctric,对作为语言模型的行为者产出的结果进行评估)或LLM背景下的所谓奖励模型是非常相同的,是一个会整体考量系统的内部状态到成本全程的事情。你可以训练一个神经网络来预测成本,你可以通过让它接触大量的——让它产生大量的输出,然后让某人或某物对这些输出进行评价来训练它。这给了你一个成本函数的目标。你可以对它进行训练,让它计算出一个小的成本,然后在得到成本之后通过它进行反向传播,以保证这个成本函数得到满足。所以,我认为设计成本这事儿,我认为我们将不得不从设计架构和设计LLM的成本转向设计成本函数。因为这些成本函数将推动系统的性质和行为。与我的一些对未来比较悲观同事相反,我认为设计与人类的价值观相一致的成本(函数)是非常可行的。这不是说如果你做错一次,就会出现人工智能系统逃脱控制和接管世界的情况。而且我们在部署这些东西之前,会有很多方法把它们设计得很好。
朱军:
我同意这一点。那么另一个与此相关的技术问题是,我注意到你通过分层的JEPA设计来模型,这其中几乎所有的模块都是可微的,对吗?也许你可以用反向传播的方法来训练。但是你知道还有另外一个领域,比如说符号逻辑,它代表着不可微的部分,也许在内在成本模块中能以某种形式制定我们喜欢的约束条件,那么,你是否有一些特别的考虑来连接这两个领域,或者干脆就忽略符号逻辑的领域?
杨立昆:
对。所以我认为是的,现实中是有一个神经+符号架构的子领域,试图将可训练的神经网络与符号操作或类似的东西结合在一起。我对这些方法非常怀疑,因为事实上符号操作是不可微的。所以它基本上与深度学习和基于梯度的学习不兼容,当然也与我所描述的那种基于梯度的推理不兼容。所以我认为我们应该尽一切努力在任何地方使用可微分的模块,包括成本函数。现在可能有一定数量的情况下,我们可以实现的成本(函数)是不可微的。对于这一点,执行推理的优化程序可能必须使用组合型的优化,而不是基于梯度的优化。但我认为这应该是最后的手段,因为零阶无梯度优化比基于梯度的优化要少很多。因此,如果你能对你的成本函数进行可微调的近似,你应该尽可能地使用它。在某种程度上,我们已经这样做了。当我们训练一个分类器时,我们想要最小化的成本函数并不完全准确。但这是不可微分的,所以我们使用的是一个可微分的成本代理。是系统输出的成本熵与所需的输出分布,或像e平方或铰链损失的东西。这些基本上都是不可微分的二进制法则的上界,我们对它不能轻易优化。因此还是用老办法,我们必须使用成本函数,它是我们实际想要最小化的成本的可微调近似值。
朱军:
我的下一个问题是,我的灵感来自于我们的下一位演讲者Tegmark教授,他将在你之后做一个现场演讲。实际上我们听说你将参加一场关于AGI的现状和未来的辩论。由于我们大多数人可能无法参加,你能否分享一些关键点给我们一些启发?我们想听到一些关于这方面的见解。
杨立昆:
好的,这将是一场有四位参与者的辩论。辩论将围绕一个问题展开,即人工智能系统是否会对人类造成生存风险。因此,马克斯和约书亚本吉奥将站在 "是的,强大的人工智能系统有可能对人类构成生存风险 "的一方。然后站在 "不"的一方的将是我和来自圣菲研究所的梅兰妮-米切尔。而我们的论点不会是AI没有风险。我们的论点是,这些风险虽然存在,但通过仔细的工程设计,很容易减轻或抑制。我对此的论点是,你知道在今天问人们,我们是否能保证超级智能系统对人类而言是安全,这是个无法回答的问题。因为我们没有对超级智能系统的设计。因此,在你有基本的设计之前,你不能使一件东西安全。这就像你在1930年问航空工程师,你能使涡轮喷气机安全和可靠吗?而工程师会说,"什么是涡轮喷气机?" 因为涡轮喷气机在1930年还没有被发明出来。所以我们有点处于同样的情况。声称我们不能使这些系统安全,因为我们还没有发明它们,这有点为时过早。一旦我们发明了它们--也许它们会与我提出的蓝图相似,那么就值得讨论。"我们如何使它们安全?",在我看来,这将是通过设计那些使推理时间最小化的目标。这就是使系统安全的方法。显然,如果你想象未来的超级智能人工智能系统将是自回归的LLM,那么我们当然应该害怕,因为这些系统是不可控制的。他们可能会逃脱我们的控制,胡言乱语。但我所描述的那种类型的系统,我认为是可以做到安全的。而且我非常肯定它们会。这将需要仔细的工程设计。这并不容易,就像在过去七十年里,使涡轮喷气机变得可靠并不容易一样。涡轮喷气机现在令人难以置信的可靠。你可以用双引擎飞机跨越大洋,而且基本上具有这难以置信的安全性。因此,这需要谨慎的工程。而且这真的很困难。我们大多数人都不知道涡轮喷气机是如何设计成安全的。因此,想象一下这事情这并不疯狂。弄清楚如何使一个超级智能的人工智能系统安全,也是很难想象的。
朱军:
好的。谢谢你的洞察和回答。同样作为工程师,我也再次感谢你。非常感谢。
杨立昆:
非常感谢你。
本文经授权转自公众号腾讯科技(ID:qqtech),如下转载,请点击下方名片联系。
文章引用微信公众号"AI科技大本营",如有侵权,请联系管理员删除!