要約
人間のような会話を生成できるチャット アシスタントとしてラージ ランゲージ モデル (LLM) が登場したことで、特にオープンエンド タスクの場合、堅牢な評価方法の必要性が高まりました。
BLEU や ROUGE などの従来の指標は便利ではありますが、そのような生成出力の微妙な意味論や文脈の豊かさを捉えるにはますます不十分になってきています。
私たちは、複数の LLM を裁判官として活用することで評価プロセスを自動化する、参照に基づく評決方法を提案します。
3 つの自由形式の質問応答タスクの実験を通じて、複数の LLM を審査員として組み合わせることで、特に単一のモデルでは困難な複雑なタスクにおいて、評価の信頼性と精度が大幅に向上することを実証しました。
私たちの調査結果は、人間の評価との強い相関関係を明らかにし、特に応答の複雑さと多様性が既存のベンチマークに課題を与えるLLMベースのチャットアシスタントのコンテキストにおいて、従来の指標や人間の判断に代わる実行可能かつ効果的な代替手段として私たちの手法を確立しました。
要約(オリジナル)
The emergence of Large Language Models (LLMs) as chat assistants capable of generating human-like conversations has amplified the need for robust evaluation methods, particularly for open-ended tasks. Conventional metrics like BLEU and ROUGE, while useful, are increasingly inadequate for capturing the subtle semantics and contextual richness of such generative outputs. We propose a reference-guided verdict method that automates the evaluation process by leveraging multiple LLMs-as-judges. Through experiments on three open-ended question-answering tasks, we demonstrate that combining multiple LLMs-as-judges significantly improves the reliability and accuracy of evaluations, particularly in complex tasks where a single model might struggle. Our findings reveal a strong correlation with human evaluations, establishing our method as a viable and effective alternative to traditional metrics and human judgments, particularly in the context of LLM-based chat assistants where the complexity and diversity of responses challenge existing benchmarks.
arxiv情報
著者 | Sher Badshah,Hassan Sajjad |
発行日 | 2024-08-20 15:12:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google