Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models

要約

大規模言語モデル(LLM)は、しばしば不正確な、あるいは誤解を招くような内容認識を生成する。この課題を解決するために、SNRに基づく適応的なノイズ注入を活用してモデルの頑健性を向上させる新しいフレームワーク、Noise-Augmented Fine-Tuning (NoiseFiT)を導入する。特に、NoiseFiTは、動的にスケーリングされたガウスノイズを用いて、高SNR(よりロバスト)または低SNR(正則化不足の可能性)として識別されたレイヤーを選択的に変化させる。さらに、標準的なクロスエントロピー、ソフトクロスエントロピー、一貫性正則化を組み合わせたハイブリッド損失を提案し、ノイズの多い学習条件下でも安定した正確な出力を保証する。我々の理論的解析により、適応的ノイズ注入は不偏であり、分散を保存し、期待値における収束を強く保証することが示される。複数のテストデータセットとベンチマークデータセットでの実証結果は、NoiseFiTが幻覚率を有意に減少させ、しばしば主要なタスクにおいてベースラインの性能を向上させるか、それに匹敵することを示している。これらの結果は、法外な計算オーバーヘッドを発生させることなく、ロバストで信頼できる言語モデリングを達成するためのノイズ駆動戦略の有望性を強調するものである。我々の実験の包括的で詳細な性質を考慮し、さらなる研究、アクセシビリティ、再現性を促進するために、微調整ログ、ベンチマーク評価成果物、ソースコードをそれぞれW&B、Hugging Face、GitHubでオンライン公開しました。

要約(オリジナル)

Large language models (LLMs) often produce inaccurate or misleading content-hallucinations. To address this challenge, we introduce Noise-Augmented Fine-Tuning (NoiseFiT), a novel framework that leverages adaptive noise injection based on the signal-to-noise ratio (SNR) to enhance model robustness. In particular, NoiseFiT selectively perturbs layers identified as either high-SNR (more robust) or low-SNR (potentially under-regularized) using a dynamically scaled Gaussian noise. We further propose a hybrid loss that combines standard cross-entropy, soft cross-entropy, and consistency regularization to ensure stable and accurate outputs under noisy training conditions. Our theoretical analysis shows that adaptive noise injection is both unbiased and variance-preserving, providing strong guarantees for convergence in expectation. Empirical results on multiple test and benchmark datasets demonstrate that NoiseFiT significantly reduces hallucination rates, often improving or matching baseline performance in key tasks. These findings highlight the promise of noise-driven strategies for achieving robust, trustworthy language modeling without incurring prohibitive computational overhead. Given the comprehensive and detailed nature of our experiments, we have publicly released the fine-tuning logs, benchmark evaluation artifacts, and source code online at W&B, Hugging Face, and GitHub, respectively, to foster further research, accessibility and reproducibility.

arxiv情報

著者 Afshin Khadangi,Amir Sartipi,Igor Tchappi,Ramin Bahmani
発行日 2025-04-04 09:27:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク