Contrastive Error Attribution for Finetuned Language Models


最近の研究では、自然言語生成 (NLG) タスクにおける幻覚や不誠実な出力の中心的な原因として、ノイズが多く誤って注釈が付けられたデータが特定されました。
したがって、これらの例を特定して削除することは、信頼性の高い NLG システムを作成する上での重要な未解決の課題です。
この研究では、テキスト要約における忠実性エラーなど、望ましくない出力につながる低品質のトレーニング インスタンスを特定して削除するフレームワークを導入します。
我々は、勾配ベースの影響測定などのエラー追跡のための既存のアプローチは、NLG データセット内の忠実性エラーを検出する際に確実に機能しないことを示します。
私たちが提案する方法は、既知のグランド トゥルースを使用した合成タスク全体で既知のデータ エラーを検出する際に、平均精度 0.93 を達成でき、既存のアプローチを大幅に上回ります。
このアプローチを使用し、クリーンアップされたデータでモデルを再トレーニングすると、NYT データセットではエンティティの幻覚が 70% 削減され、E2E データセットではセマンティック エラーが 55% 削減されました。


Recent work has identified noisy and misannotated data as a core cause of hallucinations and unfaithful outputs in Natural Language Generation (NLG) tasks. Consequently, identifying and removing these examples is a key open challenge in creating reliable NLG systems. In this work, we introduce a framework to identify and remove low-quality training instances that lead to undesirable outputs, such as faithfulness errors in text summarization. We show that existing approaches for error tracing, such as gradient-based influence measures, do not perform reliably for detecting faithfulness errors in NLG datasets. We overcome the drawbacks of existing error tracing methods through a new, contrast-based estimate that compares undesired generations to human-corrected outputs. Our proposed method can achieve a mean average precision of 0.93 at detecting known data errors across synthetic tasks with known ground truth, substantially outperforming existing approaches. Using this approach and re-training models on cleaned data leads to a 70% reduction in entity hallucinations on the NYT dataset and a 55% reduction in semantic errors on the E2E dataset.


著者 Faisal Ladhak,Esin Durmus,Tatsunori Hashimoto
発行日 2023-07-11 17:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク