On Training Data Influence of GPT Models

要約

生成言語モデルの急速な進歩の中で、トレーニングデータが GPT モデルのパフォーマンスをどのように形成するかについての研究は依然として進んでいます。
この論文では、GPT モデルのトレーニングダイナミクスに対するトレーニングサンプルの影響を評価するために、特徴的なシミュレーションを活用する新しいアプローチである GPTfluence について説明します。
私たちのアプローチは、ターゲットのテストポイントでの損失やその他の重要なメトリクスなど、パフォーマンスの軌跡に対する個々のトレーニングインスタンスの影響を追跡するだけでなく、1,400 万から 2.8 の範囲の GPT モデルのさまざまなトレーニングシナリオにわたる既存の手法との包括的な比較も可能にします。
さまざまな下流タスクにわたる数十億のパラメータ。
新しいデータへの一般化に苦労する以前の方法とは対照的に、GPTfluence はトレーニングダイナミクスのパラメーター化されたシミュレーションを導入し、目に見えないトレーニングデータに対する堅牢な一般化機能を実証します。
この適応性は、自然言語の理解と生成のタスクにわたる、微調整シナリオと命令調整シナリオの両方にわたって明らかです。
コードとデータは公開します。

要約(オリジナル)

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We will make our code and data publicly available.

arxiv情報

著者	Qingyi Liu,Yekun Chai,Shuohuan Wang,Yu Sun,Keze Wang,Hua Wu
発行日	2024-04-11 15:27:56+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

On Training Data Influence of GPT Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー