2025-05-27

Building Cooperative Embodied Agents Modularly with Large Language Models

原论文链接：arXiv:2307.02485
项目主页：CoELA Project

研究背景

在多智能体系统中，实现高效的协作一直是一个挑战，尤其是在具身环境中，智能体需要处理原始感知数据、分布式控制以及昂贵的通信成本。传统方法通常依赖于中心化控制或假设通信是无成本的，这在现实中难以实现。

大型语言模型（LLMs）在自然语言理解和生成方面表现出色，具备丰富的常识知识和推理能力。本研究旨在探索如何将LLMs无缝集成到具身智能体中，赋予其计划、沟通和协作的能力，从而高效地完成复杂的长期任务。

核心思想

论文提出了一个认知启发的模块化框架，构建了协作型具身语言智能体（Cooperative Embodied Language Agent，简称CoELA）。该框架结合了感知、记忆和执行模块，并利用LLMs的语言理解和生成能力，实现了以下目标：

计划能力：基于当前环境和记忆，生成高层次的行动计划。
沟通能力：通过自然语言与其他智能体交流，协调任务分工。
协作能力：与其他智能体共同完成复杂的长期任务。

方法流程详解

在每个交互步骤中，CoELA 首先使用**（a）感知模块感知从环境中接收到的原始感官观察信息，然后用提取的新信息更新（b）记忆模块**，该模块存储了它对世界和他人的知识和经验。CoELA 采用两步法应对高效通信的挑战：首先决定发送什么信息，然后决定是发送该信息还是选择其他方案，具体方法是特意使用 (c) 通信模块从 (b) 模块中检索相关信息，并利用 LLM 事先在 “头脑中 ”生成要发送的最佳信息，然后利用 LLM 驱动的具有强大推理能力的 (d) 规划模块，根据从 (b) 模块中检索的相关信息和针对当前状态提出的可用行动，决定采取哪种方案。生成的计划随后用于更新 (b2) 事件记忆。最后，(e) 执行模块检索 (b3) 中存储的程序知识，将高级计划转化为可在环境中执行的基本行动。

CoELA框架由以下五个关键模块组成：

感知模块（Perception Module）

处理来自环境的原始感知数据，如视觉信息，提取有用的特征供后续模块使用。

直接处理从环境中接收到的复杂视觉观测信息，通过训练 Mask-RCNN 来预测 RGB 图像中的分割掩码，然后利用 RGB-D 图像构建三维点云，提取有用的高级信息，如关键物体的状态，并构建局部语义图。

记忆模块（Belief Module）

维护智能体对环境和其他智能体状态的内部表示，更新对世界的理解。模仿人类的长期记忆，为 CoELA 设计了语义记忆、情节记忆和程序记忆。

语义记忆

存储了 CoELA 关于世界的知识，包括语义地图、任务进度、自身状态和他人状态。每当感知模型接收并感知到新的观察结果时，语义记忆就会相应地更新。需要注意的是，CoELA 对世界的了解可能并不准确，因为其他智能体可能会与对象进行交互，并在其不知情的情况下改变对象的状态。处理记忆与他人对世界的描述之间的不一致性也增加了更多的挑战。

情节记忆

存储了 CoELA 过去的经验，包括行动历史和对话历史。每当 CoELA 执行一项新的操作（包括发送信息或接收新信息）时，相关信息就会被添加到外显记忆中。

程序记忆

包含的知识包括如何在特定环境中执行以代码和神经模型参数实现的特定高级计划。

通信模块（Communication Module）

利用LLMs生成自然语言消息，与其他智能体共享信息，协调行动。

为了让智能体更好地完成合作任务，避免低效的闲聊，通信模块首先从记忆模块中获取相关信息，包括语义图、任务进度、智能体状态、他人状态、行动和对话历史等，然后利用模板将这些信息转化为文本描述，最后提示智能体将指令头、目标描述、状态描述、行动历史和对话历史串联起来，生成要发送的信息。

规划模块（Planning Module）

整合来自感知、记忆和通信模块的信息，进行高层次的推理和决策。

CoELA 需要一个强大的规划模块，以利用迄今为止收集和存储的所有可用信息来决定采取何种行动，从而最大限度地提高合作效率。

直接利用强大的 LLM 作为规划模块，首先从内存模块中检索相关信息，并将其转换为文本描述，就像在通信模块中一样、然后，根据当前状态和存储的程序知识，将所有可用的高级计划建议汇编成一个行动列表，供 LLMs 进行选择。最后，根据当前信息和建议的行动列表提示 LLMs 生成高级计划。

采用零样本思维链提示技术，鼓励 LLM 在给出最终答案前进行更多推理。

执行模块（Execution Module）

基于推理结果，制定具体的行动计划，并指导执行模块完成任务。

为了在不同环境中实现有效和通用的合作决策，设计了一个执行模块来生成原始行动，以便在特定环境中稳健地执行给定的高层次计划，从而使规划模块具有通用性，并利用 LLMs 丰富的世界知识和强大的推理能力，更加专注于解决整体任务。这种设计还能减少 LLM 的推理时间，省时又经济。CoELA 会检索记忆模块中与规划模块生成的计划相关的程序，然后用适合环境的原始动作执行程序。

整个流程如下图所示：

实验设置与结果

研究团队在两个具身多智能体协作环境中对CoELA进行了评估：

C-WAH（Communicative Watch-And-Help）：智能体需要通过沟通协作完成观察和帮助任务。
TDW-MAT（ThreeDWorld Multi-Agent Transport）：智能体需要协同搬运物体，完成运输任务。

实验结果表明，基于GPT-4的CoELA在任务完成率和协作效率方面均优于传统的基于规划的方法。此外，CoELA展现出自发的有效沟通能力，能够通过自然语言与其他智能体协调行动。

研究还对CoELA与人类的交互进行了用户研究，发现使用自然语言进行沟通的CoELA更容易获得人类的信任，并能更有效地与人类协作完成任务。

与现有方法的对比

传统的多智能体协作方法通常依赖于中心化控制或预定义的通信协议，缺乏灵活性和适应性。CoELA通过引入LLMs，实现了以下优势：

去中心化控制：每个智能体独立运行，通过自然语言进行协调，无需中心化指挥。
灵活的沟通机制：利用LLMs的语言生成能力，实现了灵活且高效的沟通。
可扩展性强：模块化设计使得系统易于扩展和适应不同的任务和环境。

此外，CoELA还展示了与人类协作的潜力，为人机协作提供了新的可能性。

总结

本研究提出的CoELA框架展示了将大型语言模型集成到具身智能体中，以实现高效多智能体协作的可能性。通过模块化设计和自然语言沟通，CoELA在复杂任务中表现出色，并展现出与人类协作的潜力。

未来的研究方向可能包括：

增强感知能力：结合多模态感知，提高智能体对环境的理解能力。
优化沟通策略：研究更高效的沟通协议，减少通信成本。
扩展应用场景：将CoELA应用于更多实际场景，如灾难救援、智能制造等。

Title:Building Cooperative Embodied Agents Modularly with Large Language Models

Author:

Created:2025-05-27, 19:49:42

Updated:2025-05-28, 20:06:34

Full URL:http://example.com/2025/05/27/Building-Cooperative-Embodied-Agents-Modularly-with-Large-Language-Models/

License: "CC BY-NC-SA 4.0" Keep Link & Author if Distribute.