RefuteBench 2.0 — Agentic Benchmark for Dynamic Evaluation of LLM Responses to Refutation Instruction

要約

マルチターンインタラクションスキーマでは、大規模な言語モデル(LLMS)はユーザーフィードバックを活用して、応答の品質と関連性を高めることができます。
ただし、ユーザーの反論フィードバックを組み込むLLMの能力を評価することは非常に重要でありながら挑戦的です。
この研究では、RebuteBench 2.0を導入します。これは、LLMエージェントを反論および評価者として組み込むことにより、元のRebuteBenchを大幅に拡張し、柔軟で包括的な評価を可能にします。
私たちは、異なる妥当性の期間で一時的な反論と持続的な反論の両方の指示を設計します。
メタ評価は、LLMベースの反論者がより多くの人間のような反論を生み出すことができ、評価者は人間との高い相関関係でスコアを割り当てることができることを示しています。
さまざまなLLMの実験結果は、現在のモデルが反論を効果的に満たすことができるが、反論情報を記憶できないことを示しています。
興味深いことに、反論が増加するにつれて最初のタスクのパフォーマンスが低下することも観察します。
注意スコアの分析は、現在のLLMの潜在的な弱点をさらに示しています。彼らは、長いコンテキストの対話中に以前の情報を保持し、正しく使用するのに苦労しています。
https://github.com/elliottyan/refutebench-2.0

要約(オリジナル)

In the multi-turn interaction schema, large language models (LLMs) can leverage user feedback to enhance the quality and relevance of their responses. However, evaluating an LLM’s ability to incorporate user refutation feedback is crucial yet challenging. In this study, we introduce RefuteBench 2.0, which significantly extends the original RefuteBench by incorporating LLM agents as refuters and evaluators, which allows for flexible and comprehensive assessment. We design both transient and persistent refutation instructions with different validity periods. Meta-evaluation shows that the LLM-based refuter could generate more human-like refutations and the evaluators could assign scores with high correlation with humans. Experimental results of various LLMs show that current models could effectively satisfy the refutation but fail to memorize the refutation information. Interestingly, we also observe that the performance of the initial task decreases as the refutations increase. Analysis of the attention scores further shows a potential weakness of current LLMs: they struggle to retain and correctly use previous information during long context dialogues. https://github.com/ElliottYan/RefuteBench-2.0

arxiv情報

著者 Jianhao Yan,Yun Luo,Yue Zhang
発行日 2025-02-25 15:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク