Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs

要約

トレーニング データ アトリビューション (TDA) メソッドは、任意の例に対するモデルの予測を特定の影響力のあるトレーニング例にまでさかのぼって追跡することを提供します。
既存のアプローチは、影響が相加的であるという単純化した仮定の下で、各トレーニング例にスカラー影響スコアを割り当てることによってこれを行います。
しかし実際には、サンプル間の冗長性、トレーニングの順序、カリキュラムの学習効果などの要因により、トレーニングのサンプルが非常に非加法的に相互作用することが観察されます。
このような相互作用を研究するために、TDA の新しいパラダイムである Simfluence を提案します。これは、例ごとに単一の影響スコアを生成することではなく、代わりにトレーニング実行シミュレーターを生成することです。ユーザーは、「私のモデルが例 $z_1 でトレーニングされていたら
$、次に $z_2$、…、次に $z_n$、$z_{test}$ でどのように動作しますか?”;
次に、シミュレーターはシミュレートされたトレーニングの実行を出力する必要があります。これは、シミュレートされた実行のすべてのステップで $z_{test}$ の損失を予測する時系列です。
これにより、ユーザーは、モデルがさまざまなトレーニング カリキュラムで何を学習したかについての事実に反する質問に答えることができ、トレーニングのどこでその学習が発生するかを直接確認できます。
非加法的相互作用を捉え、多くの場合、驚くべき忠実度で個々の例の損失のとがった軌跡を予測できるシミュレーター、Simfluence-Linear を提示します。
さらに、TracIn や影響関数などの既存の TDA メソッドは、Simfluence-Linear の特殊なケースと見なすことができることを示します。
これにより、以前のいくつかの TDA アプローチを評価に含めて、シミュレーションの精度に関して方法を直接比較することができます。
大規模言語モデル (LLM) の微調整に関する実験では、いくつかのタスク、モデル、および
トレーニング方法。

要約(オリジナル)

Training data attribution (TDA) methods offer to trace a model’s prediction on any given example back to specific influential training examples. Existing approaches do so by assigning a scalar influence score to each training example, under a simplifying assumption that influence is additive. But in reality, we observe that training examples interact in highly non-additive ways due to factors such as inter-example redundancy, training order, and curriculum learning effects. To study such interactions, we propose Simfluence, a new paradigm for TDA where the goal is not to produce a single influence score per example, but instead a training run simulator: the user asks, “If my model had trained on example $z_1$, then $z_2$, …, then $z_n$, how would it behave on $z_{test}$?”; the simulator should then output a simulated training run, which is a time series predicting the loss on $z_{test}$ at every step of the simulated run. This enables users to answer counterfactual questions about what their model would have learned under different training curricula, and to directly see where in training that learning would occur. We present a simulator, Simfluence-Linear, that captures non-additive interactions and is often able to predict the spiky trajectory of individual example losses with surprising fidelity. Furthermore, we show that existing TDA methods such as TracIn and influence functions can be viewed as special cases of Simfluence-Linear. This enables us to directly compare methods in terms of their simulation accuracy, subsuming several prior TDA approaches to evaluation. In experiments on large language model (LLM) fine-tuning, we show that our method predicts loss trajectories with much higher accuracy than existing TDA methods (doubling Spearman’s correlation and reducing mean-squared error by 75%) across several tasks, models, and training methods.

arxiv情報

著者 Kelvin Guu,Albert Webson,Ellie Pavlick,Lucas Dixon,Ian Tenney,Tolga Bolukbasi
発行日 2023-03-14 17:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク