Generalized Group Data Attribution

要約

データ アトリビューション (DA) メソッドは、モデル出力に対する個々のトレーニング データ ポイントの影響を定量化し、説明可能性、データ選択、ノイズのあるラベルの識別などの幅広い用途に使用できます。
ただし、既存の DA 手法は多くの場合、計算量が多く、大規模な機械学習モデルへの適用が制限されています。
この課題に対処するために、一般化グループ データ アトリビューション (GGDA) フレームワークを導入します。これは、個別のポイントではなくトレーニング ポイントのグループに帰属させることで DA を計算的に簡素化します。
GGDA は、既存のアトリビューション手法を包含する一般的なフレームワークであり、新しい DA 手法が出現するたびに適用できます。
これにより、ユーザーはニーズに基づいて効率と忠実性の間のトレードオフを最適化できます。
私たちの経験的結果は、GGDA を Influence Functions、TracIn、TRAK などの一般的な DA メソッドに適用すると、アトリビューションの忠実度を適切にトレードオフしながら、標準の DA メソッドよりも最大 10 倍から 50 倍の高速化をもたらすことを示しています。
データセットのプルーニングやノイズの多いラベルの識別などの下流アプリケーションでは、GGDA が計算効率を大幅に向上させて有効性を維持し、これまで実現不可能だった大規模な機械学習シナリオでの実用的なアプリケーションを可能にすることを実証します。

要約(オリジナル)

Data Attribution (DA) methods quantify the influence of individual training data points on model outputs and have broad applications such as explainability, data selection, and noisy label identification. However, existing DA methods are often computationally intensive, limiting their applicability to large-scale machine learning models. To address this challenge, we introduce the Generalized Group Data Attribution (GGDA) framework, which computationally simplifies DA by attributing to groups of training points instead of individual ones. GGDA is a general framework that subsumes existing attribution methods and can be applied to new DA techniques as they emerge. It allows users to optimize the trade-off between efficiency and fidelity based on their needs. Our empirical results demonstrate that GGDA applied to popular DA methods such as Influence Functions, TracIn, and TRAK results in upto 10x-50x speedups over standard DA methods while gracefully trading off attribution fidelity. For downstream applications such as dataset pruning and noisy label identification, we demonstrate that GGDA significantly improves computational efficiency and maintains effectiveness, enabling practical applications in large-scale machine learning scenarios that were previously infeasible.

arxiv情報

著者 Dan Ley,Suraj Srinivas,Shichang Zhang,Gili Rusak,Himabindu Lakkaraju
発行日 2024-10-21 14:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク