ReConcile

RECONCILE: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs

当前，大语言模型（LLM）在自然语言推理任务中的表现仍存在不足。如何通过更优的模型结构或协作机制提高推理准确性，是一个值得关注的研究方向。

RECONCILE 受到 “Society of Mind” 理论的启发，提出将多个 LLM agent 组成一个类似于人类“圆桌会议”的协作结构，通过多轮讨论与相互反馈，提高整体的推理效果。

其核心理念是：模仿人类的认知与决策过程，包括反思、批判、接受反馈以及从中学习，从而实现更高质量的推理结果。

关键问题是：如果多个架构和预训练背景不同的 LLM 共同解决一个问题，它们是否能够通过讨论与协商达成更优解？

通过单个 agent 自我反思和反复修正答案来提升准确率。

局限：模型可能在错误的基础上变得“过度自信”，即使经过多轮思考，也难以突破原有认知框架。

多个 agent 通过辩论方式生成答案。

局限：以往研究中的 agents 通常来自相同模型（如 GPT），预训练数据和结构相同，缺乏多样性，难以激发真正的新想法。

在 MAD 基础上引入 Judge 模型评判多个 agent 的输出。

局限：虽然提升了结果选择的合理性，但仍无法根本解决生成内容缺乏多样性的问题。

创新点：

每个 agent 基于推理任务独立生成：

多个 agent 进入若干轮迭代讨论。每轮中，所有 agent 会看到其他 agent 的答案与解释，并尝试基于这些信息更新自己的推理过程：

该过程持续至：

最终以 置信度加权投票 方式，生成最终团队答案。

系统基于各 agent 的最终置信度和输出结果，通过加权投票得出团队共识。

本研究使用了三种具有代表性的主流 LLM：

以下图示展示了 RECONCILE 方法的三个阶段：

Author:

Created:2025-05-24, 14:47:41

Updated:2025-05-28, 20:06:14

License: "CC BY-NC-SA 4.0" Keep Link & Author if Distribute.