要約
チャットボットとその基礎となるLLMの機能が劇的に改善され続けているため、パフォーマンスを評価することは、さらなる開発の主要なブロッカーになりつつあります。
主な課題は、利用可能なベンチマークデータセットです。これは、大部分が静的で、時代遅れで、多言語のカバレッジが不足しており、微妙な言語的および文化的変化をキャプチャする能力を制限します。
このペーパーでは、より代表的で多様なオープンドメインダイアログ評価ベンチマークを生成、評価、キュレーションするための自動化されたマルチエージェントフレームワークであるメダルを紹介します。
私たちのアプローチは、さまざまな種子のコンテキストを条件付けしたユーザーチャットボット多言語の対話を生成するために、いくつかの最先端のLLMを活用しています。
次に、強力なLLM(GPT-4.1)が、チャットボットのパフォーマンスの多次元分析に使用され、顕著な横断的パフォーマンスの違いを明らかにします。
この大規模な評価に導かれ、新しいメタ評価多言語ベンチマークとヒトアノテートサンプルを微妙な品質判断でキュレートします。
このベンチマークは、オープンドメインダイアログの評価者として機能するいくつかの推論と非合理LLMの能力を評価するために使用されます。
現在のLLMは、微妙な問題、特に共感と推論を含む問題を検出するのに苦労していることがわかります。
要約(オリジナル)
As the capabilities of chatbots and their underlying LLMs continue to dramatically improve, evaluating their performance has increasingly become a major blocker to their further development. A major challenge is the available benchmarking datasets, which are largely static, outdated, and lacking in multilingual coverage, limiting their ability to capture subtle linguistic and cultural variations. This paper introduces MEDAL, an automated multi-agent framework for generating, evaluating, and curating more representative and diverse open-domain dialogue evaluation benchmarks. Our approach leverages several state-of-the-art LLMs to generate user-chatbot multilingual dialogues, conditioned on varied seed contexts. A strong LLM (GPT-4.1) is then used for a multidimensional analysis of the performance of the chatbots, uncovering noticeable cross-lingual performance differences. Guided by this large-scale evaluation, we curate a new meta-evaluation multilingual benchmark and human-annotate samples with nuanced quality judgments. This benchmark is then used to assess the ability of several reasoning and non-reasoning LLMs to act as evaluators of open-domain dialogues. We find that current LLMs struggle to detect nuanced issues, particularly those involving empathy and reasoning.
arxiv情報
著者 | John Mendonça,Alon Lavie,Isabel Trancoso |
発行日 | 2025-06-06 17:53:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google