ChatEval

CHATEVAL: Towards Better LLM-Based Evaluators through Multi-Agent Debate

模型评估，或许不应只靠“评分”，更应该是一场“辩论”。

随着 LLM 在文本生成、推理等任务上的迅速发展，如何“评估”这些模型的生成质量成为新的挑战。传统自动评估指标（如 BLEU、ROUGE）已无法充分捕捉语义准确性、逻辑一致性等高层次语言特性。

当前主流方法倾向于使用 LLM 充当“评审”来评估其他 LLM 的输出，但这也引入了一个关键问题：评审模型本身可能带有偏见，甚至会误判。

CHATEVAL 借鉴“多智能体辩论（Multi-Agent Debate）”机制，提出使用多个 LLM 评审 agent 之间的辩论过程来提升评估的准确性和鲁棒性。

其核心理念是：让评估者们相互挑战、质疑与辩护，从辩论中收敛出一个更合理、更公平的判断结果。

该方法使用一个大型语言模型（LLM）对生成内容进行评分。尽管操作简便，但存在以下问题：

ChatEval 是一种基于多智能体辩论的评估框架，具有以下特点：

与传统方法相比，ChatEval 在评估的准确性、鲁棒性和可解释性方面表现更优。

CHATEVAL 的评估过程主要包括以下三个阶段：

给定一个任务（如生成一段摘要），多个 LLM agent 对候选输出进行评分，并提供理由。

agent 之间进入“辩论”流程，每轮中：

在此过程中，CHATEVAL 提出了三种不同的通信模式，用于组织 agent 之间的交流：

在每一轮辩论中，agent 按照预定顺序依次发言。每个 agent 在发言时，可以看到之前所有 agent 的发言内容，并在此基础上生成自己的回应。这种方式模拟了传统的逐轮讨论，有助于信息的逐步积累，但可能引入发言顺序带来的偏差。

所有 agent 在每一轮中同时生成回应，彼此之间在当前轮次中不共享信息。在下一轮开始前，所有 agent 的发言内容会被汇总，并提供给所有 agent 作为新的上下文。这种方式消除了发言顺序的影响，促进了观点的多样性，但可能导致信息冗余。

在 Simultaneous-Talk 的基础上，引入一个额外的 LLM 作为摘要器。在每轮结束时，摘要器对所有 agent 的发言进行总结，并将摘要结果提供给所有 agent 作为下一轮的上下文。这种方式有助于信息的整合和重点突出，减少冗余，提高讨论效率。

在多轮辩论结束后，引入一个 Meta-Evaluator：

CHATEVAL 提供了一种更加“互动式”的 LLM 评估方案，从静态判断走向动态协商。通过引入多智能体间的辩论流程，它让每一个评估者“负责任地表达观点”，并最终促成一个更可靠的判断。

值得关注的后续方向包括：

Author:

Created:2025-05-25, 16:17:30

Updated:2025-05-28, 20:06:19

License: "CC BY-NC-SA 4.0" Keep Link & Author if Distribute.