要約
テストタスクに関するトレーニングと呼ばれる大規模な言語モデルの評価において根本的な問題を研究しています。
テストデータ、漏れ、データの汚染などのトレーニングなどの不法なプラクティスとは異なり、テストタスクのトレーニングは医療過誤ではありません。
むしろ、この用語は、トレーニング時に評価タスクに関する知識を活用する一連の実践セットを説明しています。
テストタスクに関するトレーニングは、相対モデルの評価と、緊急能力に関する主張の両方を混乱させることを実証します。
あるモデルファミリーの一見優位性は、テストタスクに関する異なる程度のトレーニングによって説明される可能性があると主張します。
この目的のために、ベンチマーク評価に対するテストタスクに対するトレーニングの効果を調整する効果的な方法を提案します。
簡単に言えば、評価前に同じタスク関連データの比較で各モデルを微調整します。
次に、モデルがテストタスクでトレーニングするにつれて、緊急行動のインスタンスが徐々に消えることを示します。
私たちの仕事は、ベンチマークと緊急能力の研究に幅広い意味を持つ、大規模な言語モデルの評価に関する新しい視点を促進します。
要約(オリジナル)
We study a fundamental problem in the evaluation of large language models that we call training on the test task. Unlike wrongful practices like training on the test data, leakage, or data contamination, training on the test task is not a malpractice. Rather, the term describes a growing set of practices that utilize knowledge about evaluation tasks at training time. We demonstrate that training on the test task confounds both relative model evaluations and claims about emergent capabilities. We argue that the seeming superiority of one model family over another may be explained by a different degree of training on the test task. To this end, we propose an effective method to adjust for the effect of training on the test task on benchmark evaluations. Put simply, to fine-tune each model under comparison on the same task-relevant data prior to evaluation. We then show that instances of emergent behavior disappear gradually as models train on the test task. Our work promotes a new perspective on the evaluation of large language models, with broad implications for benchmarking and the study of emergent capabilities.
arxiv情報
著者 | Ricardo Dominguez-Olmedo,Florian E. Dorner,Moritz Hardt |
発行日 | 2025-04-21 16:43:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google