在剩余框架下体现的多模式推理:让AI Drop Heide
- 编辑:admin -在剩余框架下体现的多模式推理:让AI Drop Heide
资料来源:Chuangyebang Origin丨独立变量机器人(ID:GH_0ED81F957C26),当AI放置海德格尔锤时,有一个自动变量image机器人丨midjourney,这些工具能够使用本体,而不是需要思考的东西。当熟练的木匠抓住锤子时,锤子就会消失 - 不是身体上的,而是在不思考的情况下自由使用。但是,最先进的机器人仍然无法放置这种“锤子”。它们被困在循环锤子识别中,计划如何使用锤子,每个联系人都需要将工具重新选择为提供的东西。这种拆分式处理方法使AI不得达到该人使用的易于使用的工具的水平。体现的情报的突破并非来自对语言的现有基本模型的修补,而是来自建筑革命。 “自变量机器人”中包含的轻速光合作用公司的公司成员促进了它应该Leave具有多模式融合模块的范式范式作为核心,并移至端到端统一体系结构。该体系结构旨在完全消除视觉,语言和动作之间的人类边界,并将其减少到单一的信息流以进行处理。 2024年,Lightspeed光合作用启用了自变量机器人的前A ++融资周期。上个月,该公司宣布已经完成了A ++之前的周期和数百万元的一轮融资。现有主流技术当前范式的基本限制是将ANG的不同模态视为独立模块,例如练习前视觉信息处理,了解LLM处理,然后通过融合层连接。该委员会风格的设计具有必不可少的缺陷。首先是确定瓶颈的问题。当在不同模式的独家编码器之间传递信息时,它将导致不可避免的压缩损失,例如描述盲人中的油画,然后允许盲人传达聋哑人的图片内容,每次转换都会失去基本细节和关联。这种损失阻止了对物理世界模型模态的深刻理解。最重要的是无法出现的问题。结构结构使模型很难知道这种物理定律的模态,简单地理解。由于某人没有学会通过阅读书籍来骑自行车,而真正的体育智能需要整体,新兴的理解,而不是模块化的知识分裂。架构:组合自变量机器人所建议的模态体系结构是从关键角度得出的:真正的体现智能不应是许多专业模块的合作,而应同时同时保持理解,推理和行动。建筑核心是对代表的研究。自变量机器人将所有模态信息 - 视觉,语言,按下和动作转换为遵循的令牌的高毛毛力,删除了模态之间的人工边界。主要的成功在于使用多任模式世代作为管理机制:必须知道该系统才能从两种模态中生成其他模式的内容,从而迫使该模型建立一个深层的交叉模式字母。具体而言,自变量机器人通过其各自的编码器以统一的令牌顺序将所有输入模式(包括多视图图像,文本和实时状态指令)转换为变压器核心。其中,多模式理解的预训练模型负责整合信息以完善对任务的空间理解和计划的理解,而Ng Generation Ng Expert(Gen. Expert)则预测未来的图像和视频并直接生成机器人动作。两者与CRoss-Modal的注意力层,因此可以联系理解,推理和行为信息的流动,并且在每个计算层中没有两种变化,从而实现了端到端统一研究。该体系结构赋予了具体的多模式推理的出现。当面对新任务时,系统可以执行整体认知处理,例如人们 - 视觉理解,语义推理,物理预言和行动计划在一个空间中发生并相互影响,而不是串行处理。通过这项端到端的研究,系统可以像一个人一样思考和工作:不再依靠模块化信息传递,而是直接在深层表示空间中引起推理和行动决策的跨模式原因。紧急能力:体现多模式推理这种统一体系结构旨在解锁当前模块化系统无法实现的所有圆形体现的推理能力。首先是象征性诱导的ABI推理。 When people draw geometric shapes at will, the robot first conducts multi-level reasoning by understanding complex geometric patterns, and then conducts multi-level reasoning in a unified representation space: demonstracting abstract two-dimensional figure in concrete commensurates, understanding the spatial fixation of the concrete commens, understanding the spatial repair of the letter of the letter, comprehension of the letter compatible with the letter of the letter of the letter, understanding这些字母的逻辑,并推断它们合并的完整单词。同时,机器人可以将物理操作的抽象符号直接转换为三维空间,并使用构建块准确地重现字母的空间固定。整个过程反映了由推理和空间操作引起的视觉理解的深入整合。第二个是在物理空间中推理推理的能力。显示OP时机器人中构建块的构成步骤,机器人可以直接执行视觉空间逻辑推理并减少统一潜在空间的原因。在此过程中,机器人了解每个构件的放置如何影响整体结构的稳定性,包裹在干预措施以下操作背后的工程逻辑,并介绍了不同操作路径的可能结果。同时,机器人可以将这种推理的物理过程散发到一系列语言思维中,清楚地表达了他们对空间关系,重力障碍和施工技术的理解。最终,机器人可以根据这种深入的物理理解独立完成复杂的三维结构的构建,这反映了物理直觉和推理能力的有机组合。第三个成功是独立探索推理链的能力。面对复杂环境,系统可以结合视觉观察,空间记忆和常识,以产生连贯的推理链。整个过程涵盖了无缝集成的理解,记忆,推理和行动,以及基于常识的灵活决策技巧。这种推理过程是端到端研究的自然出现。在三个视频的顶部,机器人将需要在操作过程中取出真正的时间识别过程,这需要模型才能准确同步一个架构的物理操作,视觉和语言推理。最后一个显示了机器人从视频中学习和与推理合作的能力。观看人们的操纵视频时,机器人表明了视频行为背后的深刻意图和目标状态。这种能力超出了行动的简单模仿,反映了视频学习,了解泰尔的愿望,了解协作的目标,以及与决策能力的自主合作,展示了真正的自主研究和人力计算机的合作能力。结论这些示威活动是范式的重大变化。传统的多模式系统使用独立的表示模块摧毁了世界,但是物理世界的互动是连续的,真实的 - 时间,多模式的耦合 - 机器人正在采用脆弱的物品时,视觉,安全和安全预测的判断应同时同时同时发生,同时同时会导致失败。创建了独立变量机器人的一个体系结构,以满足此联系人的要求。这种变化的重要性使机器人可以无缝融合,理解和行动,例如海德格尔描述的熟练工人。无需进行“视觉识别→语言规划→动作实施”的长期串行处理,但直接在RE的一个空间中理解作为实现特定目标的媒介,演示可以同时进行操作,并“计划”相应的动作-in -way行动。这是多模式信息融合的并行处理,赋予了自然出现的理性能力,从而允许最终与人类和人类互动的机器人。自变量机器人认为,体现智能的未来路径是从设计一个可以执行真正体现的多模式推理的单个系统时设计拆分表示系统。这并不是改进的增加,而是建筑的发展,使AI能够具有跨模式的推理原因,空间逻辑扣除和用于一般操作的体现智能。