Efficient Ensembles Improve Training Data Attribution

要約

トレーニング データ アトリビューション (TDA) 手法は、モデル予測に対する個々のトレーニング データ ポイントの影響を定量化することを目的としており、誤ったラベルの検出、データの選択、著作権補償などのデータ中心 AI での幅広い用途に使用されます。
ただし、この分野の既存の手法は、再トレーニングベースと勾配ベースに分類でき、計算効率とアトリビューション有効性の間のトレードオフに悩まされてきました。
再トレーニングベースの方法は、複雑な非凸モデルを正確に特定できますが、計算量が法外に多くなります。一方、勾配ベースの方法は効率的ですが、非凸モデルの場合は失敗することがよくあります。
最近の研究では、独立してトレーニングされた複数のモデルのアンサンブルを使用して勾配ベースの手法を強化すると、アトリビューションの有効性が大幅に向上することが示されています。
ただし、このアプローチは、非常に大規模なアプリケーションでは依然として実用的ではありません。
この研究では、勾配ベースの手法のアンサンブルには高価な完全に独立したトレーニングが不要であることを発見し、単純な独立アンサンブルに代わる 2 つの効率的なアンサンブル戦略、DROPOUT ENSEMBLE と LORA ENSEMBLE を提案します。
これらの戦略は、単純な独立アンサンブルと同様の帰属効率を維持しながら、トレーニング時間 (最大 80%)、サービス時間 (最大 60%)、スペース コスト (最大 80%) を大幅に削減します。
私たちの広範な実験結果は、提案された戦略が、生成設定を含む多様なデータセットおよびモデル上の複数の TDA 手法にわたって有効であり、より優れた計算効率と帰属の有効性によって TDA 手法のパレートフロンティアを大幅に前進させることを示しています。

要約(オリジナル)

Training data attribution (TDA) methods aim to quantify the influence of individual training data points on the model predictions, with broad applications in data-centric AI, such as mislabel detection, data selection, and copyright compensation. However, existing methods in this field, which can be categorized as retraining-based and gradient-based, have struggled with the trade-off between computational efficiency and attribution efficacy. Retraining-based methods can accurately attribute complex non-convex models but are computationally prohibitive, while gradient-based methods are efficient but often fail for non-convex models. Recent research has shown that augmenting gradient-based methods with ensembles of multiple independently trained models can achieve significantly better attribution efficacy. However, this approach remains impractical for very large-scale applications. In this work, we discover that expensive, fully independent training is unnecessary for ensembling the gradient-based methods, and we propose two efficient ensemble strategies, DROPOUT ENSEMBLE and LORA ENSEMBLE, alternative to naive independent ensemble. These strategies significantly reduce training time (up to 80%), serving time (up to 60%), and space cost (up to 80%) while maintaining similar attribution efficacy to the naive independent ensemble. Our extensive experimental results demonstrate that the proposed strategies are effective across multiple TDA methods on diverse datasets and models, including generative settings, significantly advancing the Pareto frontier of TDA methods with better computational efficiency and attribution efficacy.

arxiv情報

著者 Junwei Deng,Ting-Wei Li,Shichang Zhang,Jiaqi Ma
発行日 2024-05-27 15:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク