要約
信頼できる機械学習を確保するには、機械学習モデルの意思決定プロセスを理解することが重要です。
データ評価に関する画期的な研究である Data Shapley は、モデルのパフォーマンスに対する各データの寄与を評価することで、この理解を進めています。
ただし、複数のモデルの再トレーニングはリソースを大量に消費し、時間がかかるため、Data Shapley を大規模なデータセットに適用する場合に課題が生じます。
これに対処するために、我々は CHG (硬度と勾配の複合) 効用関数を提案します。これは、トレーニング エポックごとにモデルのパフォーマンスに対する各データ サブセットの効用を近似します。
CHG ユーティリティ関数を使用して各データ ポイントの閉じた形式の Shapley 値を導出することにより、計算の複雑さを単一モデルの再トレーニングの複雑さまで削減し、既存の限界寄与ベースの手法と比較して 2 次の改善を達成します。
さらに、リアルタイム データ選択に CHG Shapley を活用し、標準データセット、ラベル ノイズ データセット、クラス不均衡データセットの 3 つの設定にわたって実験を実施します。
これらの実験は、高価値でノイズの多いデータを識別する際の有効性を示しています。
CHG Shapley は、効率的なデータ評価を可能にすることで、新しいデータ中心の視点を通じて信頼できるモデルのトレーニングを促進します。
コードは https://github.com/caihuaiguang/CHG-Shapley-for-Data-Valuation および https://github.com/caihuaiguang/CHG-Shapley-for-Data-Selection で入手できます。
要約(オリジナル)
Understanding the decision-making process of machine learning models is crucial for ensuring trustworthy machine learning. Data Shapley, a landmark study on data valuation, advances this understanding by assessing the contribution of each datum to model performance. However, the resource-intensive and time-consuming nature of multiple model retraining poses challenges for applying Data Shapley to large datasets. To address this, we propose the CHG (compound of Hardness and Gradient) utility function, which approximates the utility of each data subset on model performance in every training epoch. By deriving the closed-form Shapley value for each data point using the CHG utility function, we reduce the computational complexity to that of a single model retraining, achieving a quadratic improvement over existing marginal contribution-based methods. We further leverage CHG Shapley for real-time data selection, conducting experiments across three settings: standard datasets, label noise datasets, and class imbalance datasets. These experiments demonstrate its effectiveness in identifying high-value and noisy data. By enabling efficient data valuation, CHG Shapley promotes trustworthy model training through a novel data-centric perspective. Our codes are available at https://github.com/caihuaiguang/CHG-Shapley-for-Data-Valuation and https://github.com/caihuaiguang/CHG-Shapley-for-Data-Selection.
arxiv情報
著者 | Huaiguang Cai |
発行日 | 2025-01-22 17:05:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google