人工智能领域正在经历前所未有的创新潮流,但公众对大语言模型(LLMs)的言论常常固定。 和 ,Meta的首席人工智能科学家将当前人工智能进步的层面覆盖,揭示了一种远远超出了代币预测的愿景。 比尔·达利 安东尼 读书 超越语言边界 Yann LeCun公开承认他是 对LLM不再感兴趣。 . not so interested in LLMs anymore 虽然他们通过更多的数据,计算和合成数据生成继续在边缘进行改进,但LeCun将其视为“简单的推理方式”。他认为,AI中真正令人兴奋的问题在四个关键领域中存在,这些领域将定义先进机器智能(AMI)的下一波: 了解物理世界:机器如何理解现实世界物理学和互动的细微差别? 持久记忆:开发具有长期、可访问的记忆能力的AI系统。 推理:超越目前,往往是原始的,在法学硕士的推理形式,以更复杂,直观的方法。 规划:允许人工智能计划行动序列以实现特定目标,类似于人类认知过程。 LeCun认为,尽管技术界目前专注于法学硕士学位,但在五年内可能会对这些“模糊的学术论文”感到兴奋。 现实世界的挑战:为什么代币短缺 根据LeCun的说法,当前LLM的根本局限性在于其基于代币的方法。代币通常代表一组有限的可能性(约为LLM的10万),适用于语言等分散的数据,但物理世界是“高维和连续的”。 人类在生命的头几个月里获得了“世界模型”,使我们能够理解原因和后果 - 例如,如何从顶部推动一瓶可以扭转它,而从底部推动它可能会使它滑动。 试图通过在像素层面预测高维连续数据来训练系统来理解世界的尝试在很大程度上失败了,这些系统竭尽所能试图发明不可预测的细节,导致“完全浪费资源”。即使是自我监督的学习技术,通过从破坏的版本中重建图像而工作,也和替代的架构也未能发挥作用,这是因为现实的许多方面在细微层面上是不可预测的,例如视频续集中每个人的准确外观。 联合嵌入预测架构(JAPA):世界模型的未来 LeCun认为,这个挑战的答案在于联合嵌入预测架构(JAPA)。与试图重建像素水平的生成模型不同,JAPA专注于学习数据的“抽象表示”。 How JAPA Works: 输入部分(例如,视频片段或图像)通过编码器运行以产生抽象表示。 输入的延续或转换版本也通过编码器运行。 然后系统尝试在这个“呈现空间”(隐形空间)内做出预测,而不是在原始输入空间中。 这种方法避免了系统可能忽略输入并产生持续的非信息化呈现的崩溃问题,这是一个花了数年时间来克服的障碍。 对于能够推理和计划的代理系统,JAPA提供了一个强大的机制。想象一个预测器,通过观察世界的当前状态,可以预测“下一个世界状态,因为我可能会采取我想象采取的行动”。 JAPA for Reasoning and Planning: LeCun强烈地与目前的“敏感推理系统”对比,这些系统生成大量的代币序列,然后使用第二个神经网络来选择最好的。他将此类似于“写一个程序而不知道如何写一个程序” – 对于任何超出短序列的“完全绝望”方法,因为它以长度扩展。 JAPA的潜力的一个实际例子是VJA(Video Joint Embedding Predictive Architecture)项目,目前正在Meta开发中。VJA系统,在短视频片段上训练,以预测来自伪装版本的完整视频的表示,正在展示能够检测视频是否“物理上有可能”的能力。通过测量预测错误,它可以标记“不寻常”事件,如自发出现或消失的对象,或挑战物理学。 通往先进机器智能(AMI)的道路 LeCun更喜欢用“先进的机器智能”(AMI)这个术语,而不是“人工通用智能”(AGI),引用了人类智能的高度专业化性质,他估计我们可以在三到五年内至少在小规模工作。 人类水平的人工智能可能会在十年内到达。 人类水平的人工智能可能会在十年内到达。 然而,他警告了人工智能过度乐观的历史模式,每一个新范式都被宣称是十年内人类级智能的道路,他拒绝认为仅仅扩大LLM或生成数千个代币序列将导致人类级智能作为“荒谬”的想法。 一个主要的瓶颈是数据. LLM 被训练在大量的文本上(例如,30万亿个代币,相当于40万年的阅读)。相比之下,一个4岁的孩子通过视觉在16000小时内处理相当数量的数据,这表明视觉学习的巨大效率。 根据LeCun的说法,解锁AMI的关键在于发现大规模训练JAPA架构的“好食谱”,就像需要时间来找出正确的工程技巧,非线性和创新组合一样,如ResNet(过去十年中科学中引用最多的论文),以有效地训练深度神经网络和转换器,JAPA需要类似的突破。 人工智能的影响:从挽救生命到生产力工具 尽管专注于未来的范式,LeCun强调了人工智能已经产生了巨大的积极影响: 科学和医学:人工智能正在改变药物设计,蛋白质折叠和理解生命机制. 在医学成像中,深度学习系统为肿瘤预先筛选乳腺素,人工智能通过从更少的数据中恢复高分辨率图像来缩短MRI扫描时间的四个因素。 汽车:现在在欧洲强制实施的驾驶辅助和自动紧急制动系统,可将碰撞减少40%,挽救生命。 生产力和创造力:人工智能不是取代人们,而是作为“力量工具”,使个人更有生产力和创造力,无论是作为编码助理,在医学上还是在艺术领域。 然而,通往广泛部署的道路并不总是顺利的。在自动驾驶(错误可能致命的)等应用中,需要“准确性和可靠性”使得AI系统的现场部署和部署“比大多数人想象的更加困难”。这就是人工智能经常失败的地方 – 不是在基本技术或演示中,而是在可靠地集成到现有系统中。 关于人工智能的“黑暗面”,如深度假冒和假新闻,LeCun表达了惊人的乐观感。Meta的经验表明,尽管有LLM,但他们没有看到“在社交网络上发布生成内容的巨大增加,或者至少不是以恶劣的方式”。他讲述了“Galactica”事件,Meta的科学文学开源LLM遇到了“vitriol”并由于恐惧而被取消,仅仅仅是为了ChatGPT在几周后被庆祝。 开源和全球合作不可或缺的作用 LeCun哲学的核心原则是对开源人工智能平台的绝对必要性,他强调“好想法来自于众多人的互动和思想交流”。没有一个实体对创新拥有垄断权,正如从微软研究北京的中国科学家那里获得的突破性ResNet架构所证明的那样。 Meta对开源的承诺,以PyTorch和LLaMA为例,是由它培养一个蓬勃发展的创业生态系统的信念驱动,并允许最大的数量的聪明人为构建基本功能做出贡献。 Why Open Source AI is Crucial for the Future: 人工智能助理的多样性:在未来,在人工智能中介几乎每个数字交互(例如,智能眼镜)的未来,一小部分公司无法提供所需的助理的多样性,我们需要理解“世界所有语言,世界所有文化,所有价值体系”的助手,并能够体现各种偏见和意见,就像多样化的媒体对民主至关重要。 分布式培训:没有一个实体将以所有语言收集世界的所有数据。未来的模型涉及以分布式方式训练的开源基础模型,数据中心在全球范围内访问数据子集,以训练一个“共识模型”。 优化专有数据:像LLaMA这样的开源模型允许公司下载和优化其专有数据,而无需上传,支持专门的垂直应用程序和初创业务模型。 LeCun强调,那些收入不完全与人工智能服务相关的公司(如Meta的广告模型)可以从开放源代码模式中损失更少,而且可以从开放源代码模式中获益更多,这与像谷歌这样的公司相比,这些公司可能会将其视为对其核心搜索业务的威胁。 硬件:推动下一场AI革命 虽然GPU已经看到令人难以置信的进步(从开普勒到黑威尔的能力增加了5000到1万倍),抽象空间中的推理的计算成本意味着“我们将需要我们所能获得的所有竞争”在硬件领域。 LeCun在不久的将来对神经形态硬件,光学计算和量子计算对于一般人工智能任务持怀疑态度,他指出,数字半导体行业处于如此“深层次的局部最低水平”,以至于替代技术面临着巨大的挑战。 然而,他看到了PIM(Prosessor-in-Memory)或模拟/数字处理器和内存技术的承诺,用于特定“边缘计算”场景,例如智能眼镜中的低功率视觉处理。 在将其发送到视觉皮层之前,要将其压缩,这表明,模糊数据,而不是计算本身,往往消耗最多的能量。 在传感器上 未来:一支由超级智能的虚拟人组成的团队 最终,LeCun预测一个未来,AI系统是“力量工具”,增加人类的能力,而不是取代它们。我们与未来的AI的关系将是指挥;我们将是他们的“老板”,有“超智能虚拟人员为我们工作”这个协作的未来,由开放研究和开源平台驱动,将利用来自世界各地的每个人的贡献,导致一系列多样化的AI助手,以改善我们的日常生活。 在本质上,人工智能的未来不是一个突然出现的单一的黑匣子实体,而是一个协作的,迭代的过程,就像构建一个宏伟而复杂的城市一样,每个建筑师,建筑师和工程师都为一个共享的蓝图贡献了他们独特的专业知识,导致了一个充满活力和多样化的先进机器智能大都市。