On Training Data Influence of GPT Models

要約

生成言語モデルの急速な進歩の中で、学習データがGPTモデルの性能をどのように形成するかについての研究はまだ新しい。本論文では、GPTモデルの学習ダイナミクスに対する学習例の影響を評価するために、特徴化シミュレーションを活用した新しいアプローチであるGPTfluenceを紹介する。本アプローチは、個々の訓練例が、目標とするテストポイントにおける損失やその他の主要なメトリクスなどのパフォーマンス軌道に与える影響を追跡するだけでなく、1400万から28億のパラメータに及ぶGPTモデルの様々な訓練シナリオにおいて、下流タスクの範囲にわたって、既存の手法との包括的な比較を可能にする。GPTfluenceは、新しいデータへの汎化に苦戦する以前の手法とは対照的に、トレーニングダイナミクスのパラメータ化されたシミュレーションを導入し、未知のトレーニングデータへの頑健な汎化能力を実証しています。この適応性は、ファインチューニングとインストラクションチューニングの両方のシナリオにおいて、自然言語理解と生成のタスクにまたがって明らかである。我々のコードとデータは、https://github.com/ernie-research/gptfluence で公開されている。

要約(オリジナル)

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We make our code and data publicly available at https://github.com/ernie-research/gptfluence.

arxiv情報

著者 Yekun Chai,Qingyi Liu,Shuohuan Wang,Yu Sun,Qiwei Peng,Hua Wu
発行日 2024-10-03 17:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク