How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs?

要約

命令調整された大規模言語モデル (LLM) の取り組みでは、人間による評価に代わる費用対効果の高い代替手段として、テキストの重複と LLM の判断に基づく自動手法が使用されてきました。
この論文では、幅広いタスクにわたって、また言語を超えた環境において、そのような方法の信頼性を研究します。
これまでの調査結果とは対照的に、タスクの種類によってスコアを区別すると、自動手法と人間の評価者との間の相関関係にかなりのばらつきがあることが観察されました。
具体的には、広く使用されている ROUGE-L 指標​​は、英語の短答課題では人間の判断と強く相関しますが、自由形式生成課題や言語を越えた伝達では信頼性が低くなります。
評価者としての GPT-4 の有効性は、評価を求める際に参照回答を含めることに依存します。これにより、自由形式の生成タスクで過度に厳密な評価が発生する可能性があります。
要約すると、自動評価方法は特定の条件下では人間の判断に近似できるものの、その信頼性は状況に大きく依存することがわかります。
私たちの調査結果は、命令調整された LLM を開発および評価する際に、自動メソッドをどのように適用および解釈すべきかについての理解を深めます。

要約(オリジナル)

Work on instruction-tuned Large Language Models (LLMs) has used automatic methods based on text overlap and LLM judgments as cost-effective alternatives to human evaluation. In this paper, we study the reliability of such methods across a broad range of tasks and in a cross-lingual setting. In contrast to previous findings, we observe considerable variability in correlations between automatic methods and human evaluators when scores are differentiated by task type. Specifically, the widely-used ROUGE-L metric strongly correlates with human judgments for short-answer English tasks but is unreliable in free-form generation tasks and cross-lingual transfer. The effectiveness of GPT-4 as an evaluator depends on including reference answers when prompting for assessments, which can lead to overly strict evaluations in free-form generation tasks. In summary, we find that, while automatic evaluation methods can approximate human judgements under specific conditions, their reliability is highly context-dependent. Our findings enhance the understanding of how automatic methods should be applied and interpreted when developing and evaluating instruction-tuned LLMs.

arxiv情報

著者 Ehsan Doostmohammadi,Oskar Holmström,Marco Kuhlmann
発行日 2024-02-16 15:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク