要約
GPT-4テクニカルレポートは、詳細な方法論は存在しないものの、トレーニング前の信号のみを使用してダウンストリームタスクのモデルパフォーマンスを予測する可能性を強調しています。
このような予測機能は、リソース効率の良い事前トレーニングとタスクに沿ったデータセットの構築に不可欠です。
この論文では、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問回答(QA)のパフォーマンスを予測することを目指しています。
3つの主要な課題に対処します。(1)トレーニング前のコーパスへのアクセスと理解の制限、(2)訓練を受けたモデルの現在の評価方法の制限、および(3)モデルパフォーマンスの予測における周波数ベースのメトリックの制限。
これらの課題に対応して、21の公開されている21のカスタムトレーニングを受けた大規模な言語モデルの事前トレーニングコーパラ全体で大規模な検索およびセマンティック分析を実施します。
その後、言い換えされた質問バリアントを組み込んだマルチテンプレートQA評価フレームワークを開発します。
これらの基礎に基づいて、追加のトレーニングを必要とせずに、トレーニング前のデータ特性、モデルサイズ、およびQA精度を直線的に相関させる情報理論的メトリックであるサイズ依存相互情報(SMI)を提案します。
実験結果は、SMIが共起ベースのベースラインを上回り、10億以上のパラメーターを持つモデルで$ r^2 $> 0.75を達成することを示しています。
理論分析により、モデルサイズのスケーリングとデータの最適化の限界的な利点がさらに明らかになり、特定のQAタスクの精度の上限が約80%であることが示されています。
当社のプロジェクトは、https://github.com/yuhui1038/smiで入手できます。
要約(オリジナル)
The GPT-4 technical report highlights the possibility of predicting model performance on downstream tasks using only pre-training signals, though detailed methodologies are absent. Such predictive capabilities are essential for resource-efficient pre-training and the construction of task-aligned datasets. In this paper, we aim to predict performance in closed-book question answering (QA), a vital downstream task indicative of a model’s internal knowledge. We address three primary challenges: (1) limited access to and understanding of pre-training corpora, (2) limitations of current evaluation methods for pre-trained models, and (3) limitations of frequency-based metrics in predicting model performance. In response to these challenges, we conduct large-scale retrieval and semantic analysis across the pre-training corpora of 21 publicly available and 3 custom-trained large language models. Subsequently, we develop a multi-template QA evaluation framework incorporating paraphrased question variants. Building on these foundations, we propose Size-dependent Mutual Information (SMI), an information-theoretic metric that linearly correlates pre-training data characteristics, model size, and QA accuracy, without requiring any additional training. The experimental results demonstrate that SMI outperforms co-occurrence-based baselines, achieving $R^2$ > 0.75 on models with over one billion parameters. Theoretical analysis further reveals the marginal benefits of scaling model size and optimizing data, indicating that the upper limit of specific QA task accuracy is approximately 80%. Our project is available at https://github.com/yuhui1038/SMI.
arxiv情報
著者 | Changhao Jiang,Ming Zhang,Junjie Ye,Xiaoran Fan,Yifei Cao,Jiajun Sun,Zhiheng Xi,Shihan Dou,Yi Dong,Yujiong Shen,Jingqi Tong,Zhen Wang,Tao Liang,Zhihui Fei,Mingyang Wan,Guojun Ma,Qi Zhang,Tao Gui,Xuanjing Huang |
発行日 | 2025-05-13 14:19:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google