Improving Factuality and Reasoning in Language Models through Multiagent Debate
原论文链接:arXiv:2305.14325
项目主页:Multiagent Debate
研究背景
大型语言模型(LLMs)在自然语言处理任务中表现出色,但仍存在生成内容不准确(hallucination)和推理不严谨的问题。传统方法如Chain-of-Thought(CoT)和Self-Consistency等尝试通过引导模型自我反思来提升性能,但效果有限。提出了一种多智能体辩论(Multi-Agent Debate, MAD)框架,通过多个LLM实例之间的辩论,提升模型的事实性和推理能力。
核心思想
MAD框架的核心理念是模拟人类社会中的辩论机制,让多个语言模型实例就同一问题进行多轮辩论,通过相互批判和修正,最终达成更准确的共识。这种 “Society of Mind“ 的方式能够有效减少模型的幻觉现象,提升推理的严谨性。
架构设计详解
MAD框架主要包括以下几个阶段:
1. 初始响应生成
每个智能体独立生成对给定问题的初始回答。
2. 多轮辩论
在每一轮中,每个智能体都会接收到其他智能体的回答,并基于这些信息更新自己的回答。具体过程如下:
- 输入构建:将其他智能体的回答拼接成上下文,作为当前智能体的新输入。
- 更新回答:智能体根据新的上下文,生成更新后的回答。
- 重复迭代:上述过程重复进行多轮,直到达到预设的轮数或所有智能体的回答收敛。
在此过程中,智能体被鼓励对其他智能体的回答进行批判性分析,并根据新的信息修正自己的观点。
3. 最终答案确定
在多轮辩论后,系统通过多数投票或其他聚合方法,确定最终的答案。
该架构的关键在于利用多个智能体之间的互动,模拟人类的辩论过程,从而提升语言模型的表现。
实验设置与结果
研究在多个任务上对MAD框架进行了评估,包括数学推理、传记事实验证和多项选择题等。实验结果显示,MAD框架在提升回答的准确性和推理质量方面表现优异,显著优于传统的单智能体方法。
此外,研究还发现,使用不同类型的语言模型作为智能体可以进一步提升性能,表明模型多样性对辩论过程有积极影响。
总结
MAD框架通过模拟人类的辩论机制,提供了一种有效提升语言模型事实性和推理能力的方法。该方法无需对模型进行微调,具有良好的通用性和可扩展性。