想象一下,当你走进一个陌生的房间,会如何寻找遥控器呢? 作为人类的我们会凭借生活经验,迅速回忆“遥控器通常在电视旁边或沙发上”,随后走向那个区域,环顾四周,忽略水杯、纸巾盒等进入视线的其他无关物品,最终锁定目标。 在纷繁的3D世界中,这种“精准定位、按需检索”的人类本能,正是具身智能迈向通用化的过程中迫切需要的核心能力。 全球全新人类思维方式的三维世界模型HL3DWM 近日,眸深智能联合复旦大学以及上海创智学院的研究团队,基于人类行为的范式,创新性提出了全新的类人范式3D世界模型(HL3DWM)。团队立足人类理解3D世界的天然逻辑,开辟了更贴合真实世界认知的3D场景理解新路径,推动具身智能技术从前沿研究走向规模化产业应用。 HL3DWM就像一个有“空间记忆”的智能助手,其核心原理是模仿人类理解3D世界的方式——先找相关区域,再整合周边信息,最后完成任务。通过团队自研的“物体感知图像检索”模块和“环境感知信息聚合”模块,结合3D点云提供的全局空间关系和图像的精细细节,让大语言模型给出准确答案或任务方案,顺利完成复杂任务。 现有研究痛点:3D大语言模型难以兼顾全局与...
