Toward the Evaluation of Large Language Models Considering Score Variance across Instruction Templates

要約

大規模言語モデル (LLM) の自然言語理解 (NLU) のパフォーマンスは、さまざまなタスクとデータセットにわたって評価されています。
しかし、既存の評価方法では、プロンプトの違いによるスコアのばらつきが考慮されていないため、NLU のパフォーマンスの評価や比較が不公平になってしまいます。
さらに、特定のプロンプトに対して設計された評価は、どのようなプロンプトでも適切に実行することを目的とした命令のチューニングには不適切です。
したがって、異なる命令テンプレート間のスコアの差異を考慮して、公平な方法で NLU のパフォーマンスを測定する方法を見つける必要があります。
この研究では、LLM の NLU パフォーマンスを評価するための英語と日本語のクロスリンガル データセットを提供します。これには、各タスクを公正に評価するための複数の指示テンプレートと、出力形式を制限するための正規表現が含まれています。
さらに、テンプレート間のスコアの分散を考慮した評価指標として、Sharpe スコアを提案します。
英語と日本語の LLM を包括的に分析すると、テンプレート間の大きな差異が LLM の公正な評価に大きな影響を与えることが明らかになりました。

要約(オリジナル)

The natural language understanding (NLU) performance of large language models (LLMs) has been evaluated across various tasks and datasets. The existing evaluation methods, however, do not take into account the variance in scores due to differences in prompts, which leads to unfair evaluation and comparison of NLU performance. Moreover, evaluation designed for specific prompts is inappropriate for instruction tuning, which aims to perform well with any prompt. It is therefore necessary to find a way to measure NLU performance in a fair manner, considering score variance between different instruction templates. In this study, we provide English and Japanese cross-lingual datasets for evaluating the NLU performance of LLMs, which include multiple instruction templates for fair evaluation of each task, along with regular expressions to constrain the output format. Furthermore, we propose the Sharpe score as an evaluation metric that takes into account the variance in scores between templates. Comprehensive analysis of English and Japanese LLMs reveals that the high variance among templates has a significant impact on the fair evaluation of LLMs.

arxiv情報

著者 Yusuke Sakai,Adam Nohejl,Jiangnan Hang,Hidetaka Kamigaito,Taro Watanabe
発行日 2024-08-22 10:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク