Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration

要約

大規模言語モデル (LLM) のブラックボックスの性質は、結果の解釈に課題をもたらし、データの知的財産保護や幻覚追跡などの問題に影響を与えます。
トレーニング データ アトリビューション (TDA) 手法は、これらの課題に対処する効果的なソリューションと考えられています。
最新の TDA 手法は、モデルが経験的リスクを最小限に抑えることを前提として、影響関数に依存しています。
ただし、この基準を達成するのは難しく、モデルのトレーニング中のフィッティング誤差によってソーシングの精度が損なわれる可能性があります。
この論文では、フィッティングエラーに対処することで影響関数を強化する、Debias and Denoise Attribution (DDA) と呼ばれる新しい TDA 手法を紹介します。
具体的には、デバイアス戦略は、微調整前にベース モデルに存在する知識バイアスを排除することで影響関数のパフォーマンスを向上させることを目的としていますが、デノイズ戦略は、トレーニング プロセス中のさまざまな適合度から生じる影響スコアの不一致を削減することを目的としています。
スムージング技術。
実験結果は、私たちの方法が既存のアプローチを大幅に上回っており、平均 AUC 91.64% を達成していることを示しています。
さらに、DDA は、LLaMA2、QWEN2、Mistral などのさまざまなソースや異なるスケールのモデルにわたって、強力な汎用性と拡張性を示します。

要約(オリジナル)

The black-box nature of large language models (LLMs) poses challenges in interpreting results, impacting issues such as data intellectual property protection and hallucination tracing. Training data attribution (TDA) methods are considered effective solutions to address these challenges. Most recent TDA methods rely on influence functions, assuming the model achieves minimized empirical risk. However, achieving this criterion is difficult, and sourcing accuracy can be compromised by fitting errors during model training. In this paper, we introduce a novel TDA method called Debias and Denoise Attribution (DDA), which enhances influence functions by addressing fitting errors. Specifically, the debias strategy seeks to improve the performance of influence functions by eliminating the knowledge bias present in the base model before fine-tuning, while the denoise strategy aims to reduce discrepancies in influence scores arising from varying degrees of fitting during the training process through smoothing techniques. Experimental results demonstrate that our method significantly outperforms existing approaches, achieving an averaged AUC of 91.64%. Moreover, DDA exhibits strong generality and scalability across various sources and different-scale models like LLaMA2, QWEN2, and Mistral.

arxiv情報

著者 Kangxi Wu,Liang Pang,Huawei Shen,Xueqi Cheng
発行日 2024-11-19 08:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク