要約
これらのモデルには、安全リスク(例えば、人種バイアス、毒性、または誤った情報)と同様に、これらのモデルには多数の能力(例えば、数学的推論、法的支援、医療診断、または医療診断)があるため、開発段階と展開フェーズの両方で言語モデル(LM)の包括的な評価が必要です。
幅広いベンチマークにわたる平均スコアは、実際にこれらのLMSの使用を導くのに役立つ信号を提供します。
現在、ホリスティック評価は、ベンチマークの質問が大量にあるため、費用がかかり、頻繁に評価されています。
コストを削減する人気のある試みは、ベンチマークのサブセットで平均スコアを計算することです。
残念ながら、このアプローチは、平均スコアがベンチマークサブセットの質問の難しさとしばしば混同されるため、LMパフォーマンスの信頼できない尺度をしばしばレンダリングします。
アイテム応答理論(IRT)は、この課題に対処するように設計されており、疑問の難しさを慎重に制御することにより信頼できる測定を提供します。
残念ながら、質問の難しさは推定するのに費用がかかります。
この課題に直面して、私たちはそのコンテンツから疑問の難易度を予測するモデルを訓練し、一部のコストで信頼できる測定を可能にします。
さらに、この難易度予測因子を活用して、難易度を考慮して質問ジェネレーターをトレーニングすることにより、評価効率をさらに改善します。
この質問ジェネレーターは、ベンチマークの質問のランダムサブセットを使用する代わりに、LLMパフォーマンスの現在の推定に基づいて適応的に選択される適応テストに不可欠です。
22の一般的な自然言語ベンチマークと172 LMSでの実験は、現在の一般的な慣行と比較して、このアプローチがより信頼性が高く効率的であることを示しています。
要約(オリジナル)
Comprehensive evaluations of language models (LM) during both development and deployment phases are necessary because these models possess numerous capabilities (e.g., mathematical reasoning, legal support, or medical diagnostic) as well as safety risks (e.g., racial bias, toxicity, or misinformation). The average score across a wide range of benchmarks provides a signal that helps guide the use of these LMs in practice. Currently, holistic evaluations are costly due to the large volume of benchmark questions, making frequent evaluations impractical. A popular attempt to lower the cost is to compute the average score on a subset of the benchmark. This approach, unfortunately, often renders an unreliable measure of LM performance because the average score is often confounded with the difficulty of the questions in the benchmark subset. Item response theory (IRT) was designed to address this challenge, providing a reliable measurement by careful controlling for question difficulty. Unfortunately, question difficulty is expensive to estimate. Facing this challenge, we train a model that predicts question difficulty from its content, enabling a reliable measurement at a fraction of the cost. In addition, we leverage this difficulty predictor to further improve the evaluation efficiency through training a question generator given a difficulty level. This question generator is essential in adaptive testing, where, instead of using a random subset of the benchmark questions, informative questions are adaptively chosen based on the current estimation of LLM performance. Experiments on 22 common natural language benchmarks and 172 LMs show that this approach is more reliable and efficient compared to current common practice.
arxiv情報
著者 | Sang Truong,Yuheng Tu,Percy Liang,Bo Li,Sanmi Koyejo |
発行日 | 2025-03-17 16:15:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google