Training Data Attribution via Approximate Unrolled Differentation

要約

多くのトレーニング データ アトリビューション (TDA) 手法は、1 つ以上のデータ ポイントがトレーニング セットから削除された場合にモデルの動作がどのように変化するかを推定することを目的としています。
インフルエンス関数などの陰的な微分に基づくメソッドは、計算効率を上げることができますが、過小仕様、最適化アルゴリズムの暗黙的なバイアス、または多段階トレーニング パイプラインを考慮することができません。
対照的に、アンローリングに基づく方法はこれらの問題に対処しますが、スケーラビリティの課題に直面します。
この研究では、陰的微分ベースのアプローチとアンローリング ベースのアプローチを接続し、影響関数のような数式を使用して計算される近似アンローリング ベースの TDA 手法である Source を導入することでそれらの利点を組み合わせます。
Source は、アンローリング ベースのアプローチと比較して計算効率が高い一方で、非収束モデルや多段階トレーニング パイプラインなど、陰的微分ベースのアプローチが困難な場合に適しています。
経験的に、Source は反事実予測において、特に陰的微分ベースのアプローチが不十分な設定において、既存の TDA 手法よりも優れています。

要約(オリジナル)

Many training data attribution (TDA) methods aim to estimate how a model’s behavior would change if one or more data points were removed from the training set. Methods based on implicit differentiation, such as influence functions, can be made computationally efficient, but fail to account for underspecification, the implicit bias of the optimization algorithm, or multi-stage training pipelines. By contrast, methods based on unrolling address these issues but face scalability challenges. In this work, we connect the implicit-differentiation-based and unrolling-based approaches and combine their benefits by introducing Source, an approximate unrolling-based TDA method that is computed using an influence-function-like formula. While being computationally efficient compared to unrolling-based approaches, Source is suitable in cases where implicit-differentiation-based approaches struggle, such as in non-converged models and multi-stage training pipelines. Empirically, Source outperforms existing TDA techniques in counterfactual prediction, especially in settings where implicit-differentiation-based approaches fall short.

arxiv情報

著者 Juhan Bae,Wu Lin,Jonathan Lorraine,Roger Grosse
発行日 2024-05-20 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク