RECONCILE: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs
原论文链接[2309.13007] ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs
研究背景
当前,大语言模型(LLM)在自然语言推理任务中的表现仍存在不足。如何通过更优的模型结构或协作机制提高推理准确性,是一个值得关注的研究方向。
核心思想
RECONCILE 受到 “Society of Mind” 理论的启发,提出将多个 LLM agent 组成一个类似于人类“圆桌会议”的协作结构,通过多轮讨论与相互反馈,提高整体的推理效果。
其核心理念是:模仿人类的认知与决策过程,包括反思、批判、接受反馈以及从中学习,从而实现更高质量的推理结果。
关键问题是:如果多个架构和预训练背景不同的 LLM 共同解决一个问题,它们是否能够通过讨论与协商达成更优解?
与现有框架的对比
1. Self-Refine
通过单个 agent 自我反思和反复修正答案来提升准确率。
局限:模型可能在错误的基础上变得“过度自信”,即使经过多轮思考,也难以突破原有认知框架。
2. Multi-Agent Debate(MAD)
多个 agent 通过辩论方式生成答案。
局限:以往研究中的 agents 通常来自相同模型(如 GPT),预训练数据和结构相同,缺乏多样性,难以激发真正的新想法。
3. MAD + Judge
在 MAD 基础上引入 Judge 模型评判多个 agent 的输出。
局限:虽然提升了结果选择的合理性,但仍无法根本解决生成内容缺乏多样性的问题。
4. RECONCILE(本研究)
创新点:
- 引入结构多样、训练背景不同的多种 LLM;
- 通过多轮“讨论”,鼓励 agents 修正彼此的答案或增强对自身答案的信心;
- 最终通过 加权投票 得出团队共识。
方法流程详解
Step 1:初始答案生成
每个 agent 基于推理任务独立生成:
- 初始答案
- 对答案的解释(类似 Chain-of-Thought)
- 对自己答案的置信度估计
Step 2:多轮圆桌讨论
多个 agent 进入若干轮迭代讨论。每轮中,所有 agent 会看到其他 agent 的答案与解释,并尝试基于这些信息更新自己的推理过程:
- 每个 agent 被引导以“说服其他智能体”为目标修改自己的回答;
- 同时考虑他人提出的合理解释,并对自己的答案做出调整;
- 每一轮都估计新的答案置信度,作为投票权重依据。
该过程持续至:
- 达到预设最大讨论轮数,或
- 多数智能体达成共识(收敛)
最终以 置信度加权投票 方式,生成最终团队答案。
Step 3:团队答案总结
系统基于各 agent 的最终置信度和输出结果,通过加权投票得出团队共识。
模型选型与实验设置
本研究使用了三种具有代表性的主流 LLM:
- ChatGPT(OpenAI, 2022)
- Bard(Google, 2023)
- Claude2(Anthropic, 2023)
结构图解
以下图示展示了 RECONCILE 方法的三个阶段:
- 初始生成:每个模型独立生成答案与解释;
- 多轮讨论:通过专门设计的提示,引导 agent 修正思路并影响其他 agent;
- 加权投票:依据每轮置信度,生成团队共识答案。