要約
影響関数などの従来のデータ影響推定手法では、学習アルゴリズムがトレーニング データに関して順列不変であると想定されています。
ただし、最新のトレーニング パラダイム、特に確率的アルゴリズムと多段階カリキュラムを使用する基礎モデルの場合、データの順序に敏感であるため、この仮定に違反します。
この不一致により、影響関数は、機械学習における重要な質問、つまりトレーニング中の最適化軌道に対するデータの影響の依存性をどのように捉えることができるのかという質問に答えるには不十分になります。
このギャップに対処するために、トラジェクトリ固有の Leave-One-Out (LOO) 影響の概念を形式化します。これは、トレーニング中に特定の反復からデータ ポイントを削除した場合の影響を定量化し、遭遇したデータの正確なシーケンスとモデルの影響を考慮します。
最適化の軌跡。
ただし、軌道固有の LOO を正確に評価するには、計算上の大きな課題が生じます。
これに対処するために、我々は、軌道固有の LOO の効率的な近似を可能にする新しい技術であるデータ値の埋め込みを提案します。
具体的には、データと進化するモデル パラメーターの間の累積的な相互作用をカプセル化するトレーニング データの埋め込みを計算します。
LOO は、データ値の埋め込みと指定されたテスト データの勾配の間の単純なドット積によって効率的に近似できます。
データ値の埋め込みはトレーニング データの順序をキャプチャするため、モデルのトレーニングのダイナミクスに関する貴重な洞察を提供します。
特に、データの影響の異なる段階を明らかにし、トレーニングの初期段階と後期段階のデータ ポイントが最終モデルに大きな影響を与えることを明らかにしました。
これらの洞察は、選択プロセスの戦略的なタイミングによってデータ選択の計算オーバーヘッドを管理するための実行可能な戦略に変換され、データキュレーション研究に新たな道を開く可能性があります。
要約(オリジナル)
Traditional data influence estimation methods, like influence function, assume that learning algorithms are permutation-invariant with respect to training data. However, modern training paradigms, especially for foundation models using stochastic algorithms and multi-stage curricula, are sensitive to data ordering, thus violating this assumption. This mismatch renders influence functions inadequate for answering a critical question in machine learning: How can we capture the dependence of data influence on the optimization trajectory during training? To address this gap, we formalize the concept of trajectory-specific leave-one-out (LOO) influence, which quantifies the impact of removing a data point from a specific iteration during training, accounting for the exact sequence of data encountered and the model’s optimization trajectory. However, exactly evaluating the trajectory-specific LOO presents a significant computational challenge. To address this, we propose data value embedding, a novel technique enabling efficient approximation of trajectory-specific LOO. Specifically, we compute a training data embedding that encapsulates the cumulative interactions between data and the evolving model parameters. The LOO can then be efficiently approximated through a simple dot-product between the data value embedding and the gradient of the given test data. As data value embedding captures training data ordering, it offers valuable insights into model training dynamics. In particular, we uncover distinct phases of data influence, revealing that data points in the early and late stages of training exert a greater impact on the final model. These insights translate into actionable strategies for managing the computational overhead of data selection by strategically timing the selection process, potentially opening new avenues in data curation research.
arxiv情報
著者 | Jiachen T. Wang,Dawn Song,James Zou,Prateek Mittal,Ruoxi Jia |
発行日 | 2024-12-12 18:28:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google