On Training Data Influence of GPT Models

要約

生成言語モデルの急速な進歩の中で、トレーニング データが GPT モデルのパフォーマンスをどのように形成するかについての研究は依然として進んでいます。
この論文では、GPT モデルのトレーニング ダイナミクスに対するトレーニング サンプルの影響を評価するために、特徴的なシミュレーションを活用する新しいアプローチである GPTfluence について説明します。
私たちのアプローチは、ターゲットのテスト ポイントでの損失やその他の重要なメトリクスなど、パフォーマンスの軌跡に対する個々のトレーニング インスタンスの影響を追跡するだけでなく、1,400 万から 2.8 の範囲の GPT モデルのさまざまなトレーニング シナリオにわたる既存の手法との包括的な比較も可能にします。
さまざまな下流タスクにわたる数十億のパラメータ。
新しいデータへの一般化に苦労する以前の方法とは対照的に、GPTfluence はトレーニング ダイナミクスのパラメーター化されたシミュレーションを導入し、目に見えないトレーニング データに対する堅牢な一般化機能を実証します。
この適応性は、自然言語の理解と生成のタスクにわたる、微調整シナリオと命令調整シナリオの両方にわたって明らかです。
コードとデータは公開します。

要約(オリジナル)

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We will make our code and data publicly available.

arxiv情報

著者 Qingyi Liu,Yekun Chai,Shuohuan Wang,Yu Sun,Keze Wang,Hua Wu
発行日 2024-04-11 15:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク