课题组对具身智能中室内未知场景下交互式导航的研究取得了相关进展。相关研究成果以题为“Learning Cross Dimension Scene Representation for Interactive Navigation Agents in Obstacle-Cluttered Environments”的论文与2024年5月出版在期刊《IEEE Robotics and Automation Letters》(IF=5.2)
目前的导航研究大多研究机器人在静态导航环境中寻找到一条无碰撞的可行路径。然而,真实室内环境下可移动物体的位置变动频繁,无法保证可导航路径的存在。为此,我们研究了导航与交互动作混合的交互式导航任务。机器人同时具备改变自身姿态和环境状态的能力,以拓展其在杂乱布局下的导航能力。然而,混合动作决策空间下动作-观测和环境变化之间存在复杂的因果关系,机器人需要同时理解导航动作导致的相机观测变化和交互动作导致的局部环境变化。
为此,我们首先分析了动作-观测和环境变化的因果关系,确立了二维视觉和三维几何观测结合的输入模态;然后,提出了特征空间的可微投影技术,充分融合不同维度观测信息对于混合动作决策的优势;最后,构建了三维语义监督的跨维度表征与导航策略强化联合的学习框架,实现了基于混合动作-观测和环境变化之间的因果关系理解的交互式导航决策模型。实验结果表明,该方法有利于机器人明确何种动作会改变自身姿态以及何种动作可能影响障碍物的状态,从而显著提升交互式导航混合动作决策效率。相比于Interactive Gibsion Benchmark导航成功率和路径效率提升了16%,动作执行成功率提升了27%。
论文信息:
H. Sang, R. Jiang, X. Li, Z. Wang, Y. Zhou and B. He, "Learning Cross Dimension Scene Representation for Interactive Navigation Agents in Obstacle-Cluttered Environments," in IEEE Robotics and Automation Letters, doi: 10.1109/LRA.2024.3401684. (https://ieeexplore.ieee.org/document/10531661)