The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

要約

ハード トレーニング データに正しくラベルを付けることが本質的に難しい場合、ハード テスト データで適切にパフォーマンスを発揮するようにモデルをトレーニングするにはどうすればよいでしょうか?
この問題はスケーラブルな監視問題と呼ばれており、言語モデルが継続的に改善されるにつれて注目が高まっています。
この論文では、現在の言語モデルは、簡単なデータからハード データまで比較的うまく一般化することが多く、ハード データでトレーニングされた「オラクル」モデルと同等のパフォーマンスを発揮することさえあるという驚くべき結論を示します。
私たちは、経験的に多様な人間の硬度の 6 つの尺度 (学年レベルなど) と 1 つのモデルを含む、データポイントの硬度の 7 つの異なる尺度に対して、コンテキスト学習、線形分類器ヘッド、QLoRA などの単純なトレーニング手法を使用して、この種の簡単から難しい一般化を実証します。
-ベースの測定(損失ベース)。
さらに、ハード データでのモデルのパフォーマンスを最も重視する場合でも、ハード データは一般にノイズが多く、収集コストがかかるため、ハード データではなく簡単なデータで収集してトレーニングした方が良い場合があることを示します。
私たちの実験では、最大 70b のサイズのオープン モデルと、3 年生の科学の質問から大学レベルの STEM の質問、一般知識の雑学まで、さまざまな難易度の質問を含む 4 つの公開されている質問応答データセットを使用します。
私たちは、LM におけるイージーからハードへの一般化が調査対象のタスクに対して驚くほど強力であると結論付けており、スケーラブルな監視問題がこれまで考えられていたよりも簡単である可能性があることを示唆しています。
私たちのコードは https://github.com/allenai/easy-to-hard-generalization で入手できます。

要約(オリジナル)

How can we train models to perform well on hard test data when hard training data is by definition difficult to label correctly? This question has been termed the scalable oversight problem and has drawn increasing attention as language models have continually improved. In this paper, we present the surprising conclusion that current language models often generalize relatively well from easy to hard data, even performing as well as ‘oracle’ models trained on hard data. We demonstrate this kind of easy-to-hard generalization using simple training methods like in-context learning, linear classifier heads, and QLoRA for seven different measures of datapoint hardness, including six empirically diverse human hardness measures (like grade level) and one model-based measure (loss-based). Furthermore, we show that even if one cares most about model performance on hard data, it can be better to collect and train on easy data rather than hard data, since hard data is generally noisier and costlier to collect. Our experiments use open models up to 70b in size and four publicly available question-answering datasets with questions ranging in difficulty from 3rd grade science questions to college level STEM questions and general-knowledge trivia. We conclude that easy-to-hard generalization in LMs is surprisingly strong for the tasks studied, suggesting the scalable oversight problem may be easier than previously thought. Our code is available at https://github.com/allenai/easy-to-hard-generalization

arxiv情報

著者 Peter Hase,Mohit Bansal,Peter Clark,Sarah Wiegreffe
発行日 2024-01-12 18:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク