要約
命令調整された大規模言語モデル (LLM) の取り組みでは、人間による評価に代わる費用対効果の高い代替手段として、テキストの重複と LLM の判断に基づく自動手法が使用されてきました。
この論文では、そのような手法のメタ評価を実行し、幅広いタスクにわたってその信頼性を評価します。
自動評価方法は特定の条件下で人間の評価に近似することができますが、その妥当性は状況に大きく依存することがわかりました。
具体的には、単純な ROUGE-L 指標は、英語の短答課題に対する人間の評価とよく相関しますが、自由形式生成課題や言語を越えた伝達では信頼性が低くなります。
参照回答がプロンプトに含まれていない場合、GPT-4 を判断基準として使用するより高度な方法の有効性は大幅に低下します。これは、この方法が他の指標と比較して最大の価値を提供する可能性があるシナリオです。
私たちの調査結果は、命令調整された LLM を開発および評価する際に、自動メソッドをどのように適用および解釈すべきかについての理解を深めます。
要約(オリジナル)
Work on instruction-tuned Large Language Models (LLMs) has used automatic methods based on text overlap and LLM judgments as cost-effective alternatives to human evaluation. In this paper, we perform a meta-evaluation of such methods and assess their reliability across a broad range of tasks. We observe that while automatic evaluation methods can approximate human ratings under specific conditions, their validity is highly context-dependent. Specifically, the simple ROUGE-L metric correlates well with human ratings for short-answer English tasks but is unreliable in free-form generation tasks and cross-lingual transfer. The effectiveness of the more advanced method of using GPT-4 as a judge diminishes significantly if reference answers are not included in the prompt, which is the scenario where this method has the potential to provide the most value compared to other metrics. Our findings enhance the understanding of how automatic methods should be applied and interpreted when developing and evaluating instruction-tuned LLMs.
arxiv情報
著者 | Ehsan Doostmohammadi,Oskar Holmström,Marco Kuhlmann |
発行日 | 2024-07-02 11:46:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google