要約
信頼できる機械学習を確保するには、機械学習モデルの意思決定プロセスを理解することが重要です。
データ評価に関する画期的な研究である Data Shapley は、モデルの精度に対する各データの寄与を評価することで、この理解を大幅に前進させました。
ただし、複数のモデルの再トレーニングはリソースを大量に消費し、時間がかかるため、Data Shapley を大規模なデータセットに適用するには大きな課題が生じます。
これに対処するために、単一モデルのトレーニング中のモデルの精度に対する各データ サブセットの有用性を近似する CHG (硬度と勾配の伝導) スコアを提案します。
CHG スコアユーティリティ関数の下で各データポイントの Shapley 値の閉じた形式の式を導出することにより、計算の複雑さが単一モデルの再トレーニングと同等に軽減され、既存の方法に比べて指数関数的に改善されます。
さらに、リアルタイムのデータ選択に CHG Shapley を採用し、価値の高いデータやノイズの多いデータを識別する際の有効性を実証しています。
CHG Shapley は、効率的なデータ評価を通じて信頼できるモデルのトレーニングを促進し、信頼できる機械学習に関する新しいデータ中心の視点を導入します。
要約(オリジナル)
Understanding the decision-making process of machine learning models is crucial for ensuring trustworthy machine learning. Data Shapley, a landmark study on data valuation, has significantly advanced this understanding by assessing the contribution of each datum to model accuracy. However, the resource-intensive and time-consuming nature of multiple model retraining poses significant challenges for applying Data Shapley to large datasets. To address this, we propose the CHG (Conduct of Hardness and Gradient) score, which approximates the utility of each data subset on model accuracy during a single model training. By deriving the closed-form expression of the Shapley value for each data point under the CHG score utility function, we reduce the computational complexity to the equivalent of a single model retraining, an exponential improvement over existing methods. Additionally, we employ CHG Shapley for real-time data selection, demonstrating its effectiveness in identifying high-value and noisy data. CHG Shapley facilitates trustworthy model training through efficient data valuation, introducing a novel data-centric perspective on trustworthy machine learning.
arxiv情報
著者 | Huaiguang Cai |
発行日 | 2024-06-17 16:48:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google