ReConcile


RECONCILE: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs

原论文链接[2309.13007] ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs

研究背景

当前,大语言模型(LLM)在自然语言推理任务中的表现仍存在不足。如何通过更优的模型结构或协作机制提高推理准确性,是一个值得关注的研究方向。

核心思想

RECONCILE 受到 “Society of Mind” 理论的启发,提出将多个 LLM agent 组成一个类似于人类“圆桌会议”的协作结构,通过多轮讨论与相互反馈,提高整体的推理效果。

其核心理念是:模仿人类的认知与决策过程,包括反思、批判、接受反馈以及从中学习,从而实现更高质量的推理结果。

关键问题是:如果多个架构和预训练背景不同的 LLM 共同解决一个问题,它们是否能够通过讨论与协商达成更优解?

与现有框架的对比

1. Self-Refine

通过单个 agent 自我反思和反复修正答案来提升准确率。

局限:模型可能在错误的基础上变得“过度自信”,即使经过多轮思考,也难以突破原有认知框架。

2. Multi-Agent Debate(MAD)

多个 agent 通过辩论方式生成答案。

局限:以往研究中的 agents 通常来自相同模型(如 GPT),预训练数据和结构相同,缺乏多样性,难以激发真正的新想法。

3. MAD + Judge

在 MAD 基础上引入 Judge 模型评判多个 agent 的输出。

局限:虽然提升了结果选择的合理性,但仍无法根本解决生成内容缺乏多样性的问题。

4. RECONCILE(本研究)

创新点

  • 引入结构多样、训练背景不同的多种 LLM;
  • 通过多轮“讨论”,鼓励 agents 修正彼此的答案或增强对自身答案的信心;
  • 最终通过 加权投票 得出团队共识。

方法流程详解

Step 1:初始答案生成

每个 agent 基于推理任务独立生成:

  • 初始答案
  • 对答案的解释(类似 Chain-of-Thought)
  • 对自己答案的置信度估计

Step 2:多轮圆桌讨论

多个 agent 进入若干轮迭代讨论。每轮中,所有 agent 会看到其他 agent 的答案与解释,并尝试基于这些信息更新自己的推理过程:

  • 每个 agent 被引导以“说服其他智能体”为目标修改自己的回答;
  • 同时考虑他人提出的合理解释,并对自己的答案做出调整;
  • 每一轮都估计新的答案置信度,作为投票权重依据。

该过程持续至:

  • 达到预设最大讨论轮数,或
  • 多数智能体达成共识(收敛)

最终以 置信度加权投票 方式,生成最终团队答案。

Step 3:团队答案总结

系统基于各 agent 的最终置信度和输出结果,通过加权投票得出团队共识。

模型选型与实验设置

本研究使用了三种具有代表性的主流 LLM:

  • ChatGPT(OpenAI, 2022)
  • Bard(Google, 2023)
  • Claude2(Anthropic, 2023)

结构图解

以下图示展示了 RECONCILE 方法的三个阶段:

  1. 初始生成:每个模型独立生成答案与解释;
  2. 多轮讨论:通过专门设计的提示,引导 agent 修正思路并影响其他 agent;
  3. 加权投票:依据每轮置信度,生成团队共识答案。

image-20250528153429856

image-20250528153458377

Contents
  1. 1. RECONCILE: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs
    1. 1.1. 研究背景
    2. 1.2. 核心思想
    3. 1.3. 与现有框架的对比
      1. 1.3.1. 1. Self-Refine
      2. 1.3.2. 2. Multi-Agent Debate(MAD)
      3. 1.3.3. 3. MAD + Judge
      4. 1.3.4. 4. RECONCILE(本研究)
    4. 1.4. 方法流程详解
      1. 1.4.1. Step 1:初始答案生成
      2. 1.4.2. Step 2:多轮圆桌讨论
      3. 1.4.3. Step 3:团队答案总结
    5. 1.5. 模型选型与实验设置
    6. 1.6. 结构图解
|