BenTo: Benchmark Task Reduction with In-Context Transferability

要約

大規模言語モデル (LLM) の評価にはコストがかかります。さまざまなタスクの大規模なベンチマークで LLM 出力を生成および検査する必要があります。
このペーパーでは、評価の品質に影響を与えることなく、LLM のベンチマークに使用されるタスクを効率的に削減する方法を調査します。
私たちの調査では、タスクの転送可能性と関連性が、施設の場所の機能を最適化することで最も代表的なタスクのサブセットを特定するための重要な情報を提供することを明らかにしています。
我々は、コンテキスト内学習 (ICL) を介して 2 つのタスク間の伝達可能性を推定するための実用的に効率的な指標を提案します。
ペアごとの転送可能性を分析することで、最新の LLM ベンチマーク (MMLU や FLAN など) のタスクを 5% に削減しながら、元のベンチマークの評価との差を 4% 未満に抑えることができます。
以前の研究と比較して、私たちの方法はトレーニング不要、勾配不要で、ICLのみを必要とする非常に効率的です。

要約(オリジナル)

Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.

arxiv情報

著者 Hongyu Zhao,Ming Li,Lichao Sun,Tianyi Zhou
発行日 2024-10-17 17:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク