您现在的位置是:主页 > 模板分享 > 国外 >
继语言模型之后,致远EMU3.5找到了AI的“第三尺度
发布时间:2025-11-01 10:27编辑:365bet网址浏览(80)
对多式联运世界模式的新时代感到好奇吗?作者 |连然编辑|郑选 10月30日,致远研究院正式发布“无界动车组3.5”多式联运世界模型。在当前大语言模型(LLM)的文本能力逐渐达到顶峰、业界普遍寻求新成果的背景下,多模态被认为是人工智能的下一个重要方向。然而,如何有效整合文本、图像、视频等不同模态的数据一直是业界面临的问题。长期以来,多模态领域存在两种不同的技术路径:一种是DIT(变压器爆炸)的架构,在文森影业、文森视频等作品的开发中表现出色;还有的是以动车组系列智源为代表的“原生多模态”架构,试图用统一的模型来处理一切从头开始。致远研究院院长王忠元在发布会上表示,EMU3.5的发布标志着人工智能从“语言学习”向“多模态世界学习”演进的新时代,并引领了多模态扩展的新范式。从一年前证明技术路线的EMU3,到如今号称“开启新时代”的EMU3.5,致远解决了哪些重大问题?其背后蕴藏着怎样的技术思维? 01 填补主要空白:从“统一”到“高效” 多模态人工智能的主要挑战之一是如何构建“大统一”模型。业界常见的做法是拼接不同功能的模型(例如理解模型和生成模型)。但这会带来集成挑战,不同架构之间的“语言”是不连通的。从EMU3开始,致远选择了一条更加彻底、难度更大的“本土多式联运”路线:利用统一的自回归架构。图片来源:致远研究院 自回归架构是当前大规模语言模型的基础,其范式是“next-token预测”。智慧将其扩展到多模式领域。无论是文本、图像还是视频,都被分解为标记并同样由模型进行预测。它的优点是理论上非常简单优雅,实现了“图像、文字、视频的统一”。但这一选择也面临着过去一年来的一个“原罪”:推理效率太低。模型生成图像时,需要每次“吐出”一个 token。这个过程就像“像素打印”。与扩散等模型生成的并行方法相比,速度要慢几个数量级。一个不能有效运作的模型将难以在实践中实现“统一”的理论成果。因此,效率问题是EM面临的第一座大山。U3.5必须克服。 MU3.5团队提出了一种名为“DADA(离散扩散适应,DADA)”的创新技术来解决这个问题。 Dida 是一种高效的混合预测方法,允许自回归模型预测并生成与理解箭头平行的大型标记。这一介绍改变了低效的“一次绘制一点”模式。改进是显着的:在不牺牲性能的情况下,识别每张图像的速度提高了近 20 倍。王忠源表示,这使得EMU3.5的自回归架构“首次使自回归模型的生成效率与顶级闭源扩散模型相媲美”。这一重大工程突破弥补了本土多式联运航线的重大短板。这证明这条路径不仅在理论上可行,而且在实践中也“可用”和“有竞争力”。效率的束缚解决之后,“规模”之路真正开启。 02“第三范式”开启:当多模态遇上人工智能领域的尺度法则 那么,“尺度法则”(Scale Law)是近年来最重要的发现之一。这意味着只要模型的参数、训练数据和输入计算能力不断增加,模型的性能将可预见地相应提高。大型模型的成功正是基于这种“大砖头飞”的信念。但在多式联运领域,这条路径并不明确。由于技术路线参差不齐,业界并不确定多模态模型是否存在明确的缩放规律。 EMU3.5通过DADA技术解决效率问题后,智慧迅速开始大规模验证。从EMU3到EMU3.5的变化清晰地体现了这一点:模型参数:从8B(80亿)跃升至34B(340亿),增长超过4倍; Data ofTraining:视频数据集的累计训练时间从15年增加到790年,跳跃了50多倍;性能也显着提高。基于本次训练,王忠远在发布会上做出了大胆判断:EMU3.5开启了继“语言预训练”和“训练后推理”之后的“第三个尺度范式”。为什么称之为“新范式”?志远给出了三个理由: 架构的统一:动车组的自回归架构可以统一处理不同模态的数据,为规模化提供了简单的基础。设施重用:该架构允许“大规模重用现有计算基础设施”。这意味着几乎所有昂贵的智能计算集群都是为LLM训练而构建的,可以无缝切换到训练EMU模型,大大降低了扩展的门槛。强化学习介绍:EMU3.5首次在多模态领域实现大规模强化学习(RL)。强化学习(特别是特别是RLHF)是激发LLM高级能力并使其“顺服”的关键一步。如今,致远已成功将语言中经过验证的成熟解决方案应用到更复杂的多模态模型中。 “扩展范式”的定义是“可预测的”。而emu3.5的潜力才刚刚开始被释放。王忠源在现场表示,34B目前的参数相比LLM万亿的规模还很小;而790年的视频数据量“只占整个互联网公开视频数据的不到1%”。这意味着这条路上无论是模型参数还是数据测量都还有很大的改进空间。只要你继续在这条路上“带着大砖头飞”,模型能力的上限还远远没有达到。 03 学习世界规律:从“代币预测”到“状态预测” 如果解决效率问题、开放规模,回答“如何那么EMU3.5的另一个重大变化就是回答“学什么”的问题。致远团队在发布会上反复强调“第一性原理”。王忠远举了一个观察两岁小女孩的例子:通过观看短视频,她注意到人们如何吃糖视频,然后在现实世界中模仿、尝试、失败、再尝试,最终学会了如何自己串糖葫芦。他强调,人类的学习并不从文本开始,而是从对世界和物理规律的视觉观察开始。这也是EMU3.5试图复制的主要理念:AI不仅要认识“语言”,还要认识“世界”。为此,EMU3.5提出了主要范式的升级:从EMU3的“Next-Token Prediction”到“Next-State Prediction(NSP)”,这一变化意味着模型的目的不再是机械地“不断地写入”数据。预测下一个像素或下一个单词),但要理解原因se以及事物背后的效果和规律,并预测世界的逻辑“下一个状态”。基于此,Wisdom还传递了自己的k指“世界模式”的概念。王中原在采访中明确表示,他并不完全认同“世界的模式是视频一代”的观点。他认为世界模型的关键部分是“对世界各地的因果关系、时空和物理进行建模的能力”。他用“桌上的咖啡”的例子来说明:“视频生成模型”可以预测“杯子掉下来,咖啡洒在地板上”的真实画面。但“世界模型”首先必须了解“这个杯子是危险的(状态)”并预测“可能会掉落(状态改变)”。而且,当收到“拿起咖啡杯”的指令时,该模型会根据物理感知(纸杯的力和重心位置)的理解来规划“下一步动作”。 ng EMU3.5 所展现的诸多能力证实了这一点从“理解”到“行动”的进化:EMU3.5可以精准可控完成文本和图像的生成 |图片来源:智源研究院展示基于视觉图像理解的图像生成能力 图:智源研究院 EMU3.5的多模态输出能力:输入“如何做芹菜饺子”时,“如何做芹菜饺子”时,模型输出的不是零散的图像,而是一套图文并茂、步骤清晰的“动作指南”。动态仿真和推理:在一个示例中,模型必须填写“?”根据图案规则选择合适的颜色。这就要求模型先“理解”图案排列的规则(一种逻辑状态),然后才能“生成”正确的红色方块(在下一个esdad中)。时空理解:模型可以根据指令将建筑物的正视图转换为“俯视图”。这背后的建模是物体的三维空间关系。 “预测下一个状态”的能力最终指向了人工智能的终极应用之一:具身智能(机器人)。实体智能行业目前面临着数据缺乏的瓶颈。 EMU3.5等世界模型可以通过理解和模拟物理世界,为机器人生成海量、高质量、多样化的“模拟训练数据”。例如,在“折叠衣服”演示中,模型独立规划并为机器人开发了完整的复杂折叠动作序列。只需简单的“叠衣服”指令,EMU3.5就能独立规划和拆解任务,精准生成机器人完成一组复杂的折叠动作 |图片来源:智能源研究院王新龙博士在交流中提到,利用EMU3.5的世界模型能力,机器人可以在“隐形科学”中执行任务enes”,成功率可以“直接(从0%)到70%”。这说明EMU3.5起到了具身“大脑”的作用,即提供理解、规划、泛化的基础智能。EMU3.5的发布首先将通过DADA技术解决原生多模态自回归架构最致命的“效率”短板。基于此,才得以开启了“多模态缩放”,通过数据和参数的叠加来提升能力,验证“第三缩放范式”的可能性,这个尺度的最终目标是实现更宏伟的愿景:从“预测代币”到“预测状态”,让AI真正认识世界的物理规律和因果关系,为最终实现能够理解物理世界并与物理世界交互的通用人工智能提供稳定的路径。计划在未来开源该模型。或许,在多式联运世界模式的新轨道上,来自中国的“新范式”已经出现。 *头图来源:致远研究院本文为极客公园原创文章。转载请联系GeekJun微信Geekparkgo。极客问你觉得EMU3.5怎么样?一年3260亿的巨额收入!雷俊成,财富中的“增长王”,胡润调侃即使选择金钱也会赔钱。点赞并关注极客公园视频账号。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注意:上述内容(包括照片和视频,如有)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。
下一篇:没有了