眸深智能发布全新个人类思维方式的三维世界模型HL3DWM 让机器人真正看懂真实世界 - AI资讯

想象一下，当你走进一个陌生的房间，会如何寻找遥控器呢？作为人类的我们会凭借生活经验，迅速回忆“遥控器通常在电视旁边或沙发上”，随后走向那个区域，环顾四周，忽略水杯、纸巾盒等进入视线的其他无关物品，最终锁定目标。在纷繁的3D世界中，这种“精准定位、按需检索”的人类本能，正是具身智能迈向通用化的过程中迫切需要的核心能力。全球全新人类思维方式的三维世界模型HL3DWM 近日，眸深智能联合复旦大学以及上海创智学院的研究团队，基于人类行为的范式，创新性提出了全新的类人范式3D世界模型（HL3DWM）。团队立足人类理解3D世界的天然逻辑，开辟了更贴合真实世界认知的3D场景理解新路径，推动具身智能技术从前沿研究走向规模化产业应用。 HL3DWM就像一个有“空间记忆”的智能助手，其核心原理是模仿人类理解3D世界的方式——先找相关区域，再整合周边信息，最后完成任务。通过团队自研的“物体感知图像检索”模块和“环境感知信息聚合”模块，结合3D点云提供的全局空间关系和图像的精细细节，让大语言模型给出准确答案或任务方案，顺利完成复杂任务。现有研究痛点：3D大语言模型难以兼顾全局与...