要約
データ中心の学習の中心的な課題は、モデルのパフォーマンスに悪影響を与えるトレーニング サンプルを特定することです。
影響関数は、このタスクの優れたツールとして機能し、モデル予測に対するトレーニング データの影響を評価するための堅牢なフレームワークを提供します。
広く使用されているにもかかわらず、ヘッセ行列の逆行列の計算に伴う高い計算コストにより、特に大規模なディープ モデルを分析する場合に制約が生じます。
この論文では、影響関数による有害なトレーニング サンプルの特定と外れ値勾配検出の間の橋渡しを確立します。
この変換は、単純でヘシアンのない定式化を提示するだけでなく、サンプルの影響における勾配の役割についての洞察も提供します。
体系的な経験的評価を通じて、まず合成データセットに対して提案した外れ値勾配分析アプローチの仮説を検証します。
次に、ビジョン モデル内のラベルが間違っているサンプルの検出と、自然言語処理トランスフォーマー モデルのパフォーマンスを向上させるためのデータ サンプルの選択におけるその有効性を実証します。
また、大規模言語モデルを微調整するための影響力のあるサンプルの識別にもその使用を拡張します。
要約(オリジナル)
A core data-centric learning challenge is the identification of training samples that are detrimental to model performance. Influence functions serve as a prominent tool for this task and offer a robust framework for assessing training data influence on model predictions. Despite their widespread use, their high computational cost associated with calculating the inverse of the Hessian matrix pose constraints, particularly when analyzing large-sized deep models. In this paper, we establish a bridge between identifying detrimental training samples via influence functions and outlier gradient detection. This transformation not only presents a straightforward and Hessian-free formulation but also provides insights into the role of the gradient in sample impact. Through systematic empirical evaluations, we first validate the hypothesis of our proposed outlier gradient analysis approach on synthetic datasets. We then demonstrate its effectiveness in detecting mislabeled samples in vision models and selecting data samples for improving performance of natural language processing transformer models. We also extend its use to influential sample identification for fine-tuning Large Language Models.
arxiv情報
著者 | Anshuman Chhabra,Bo Li,Jian Chen,Prasant Mohapatra,Hongfu Liu |
発行日 | 2024-10-02 01:38:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google