实验室成果被人工智能顶级学术会议ICML2026录用
2026年06月01日

实验室在大语言模型驱动的多智能体决策研究方面取得重要进展。相关研究成果以题为《DLM: Unified Decision Language Model for Offline Multi-Agent Sequential Decision Making》被国际机器学习顶级会议 ICML 2026 录用并评选为 Spotlight 论文。ICML(International Conference on Machine Learning)是机器学习领域公认的国际顶级学术会议,也是中国计算机学会(CCF)推荐 A 类会议。本届会议共收到 23,918 篇有效投稿,录用论文 6,352 篇,录用率为 26.6%;其中仅有 536 篇论文入选 Spotlight,占全部投稿论文的 2.2%。

针对离线多智能体强化学习中策略泛化能力不足、状态动作表示依赖任务设计以及训练执行不一致等问题,论文提出了一种统一决策语言模型(Decision Language Model, DLM)。该方法将多智能体序列决策问题建模为对话式语言建模任务,通过将观测与动作转换为自然语言描述,利用大语言模型统一处理不同任务、不同智能体规模以及异构状态动作空间下的决策问题。进一步地,论文设计了符合集中式训练与分布式执行范式的对话式轨迹表示方法,并结合监督微调与群组相对策略优化两阶段训练机制,有效缓解离线决策中的分布外(OOD)动作问题,提高策略鲁棒性与泛化能力。大量实验结果表明,所提出的 DLM 在 SMAC、SMACv2 和 LBF 等多个多智能体基准任务上取得了优于现有离线多智能体强化学习方法和基于大语言模型决策方法的性能,并展现出良好的跨任务零样本泛化能力,为构建通用多智能体决策模型提供了一种新的技术路线。

图1 DLM的训练流程

论文信息:Zhuohui Zhang,  Bin Cheng, Bin He. DLM: Unified Decision Language Model for Offline Multi-Agent Sequential Decision Making. The 43rd International Conference on Machine Learning (ICML 2026).