Contrastive Error Attribution for Finetuned Language Models

要約

最近の研究では、自然言語生成 (NLG) タスクにおける幻覚や不誠実な出力の中心的な原因として、ノイズが多く誤って注釈が付けられたデータが特定されました。
したがって、これらの例を特定して削除することは、信頼性の高い NLG システムを作成する上での重要な未解決の課題です。
この研究では、テキスト要約における忠実性エラーなど、望ましくない出力につながる低品質のトレーニング インスタンスを特定して削除するフレームワークを導入します。
我々は、勾配ベースの影響測定などのエラー追跡のための既存のアプローチは、NLG データセット内の忠実性エラーを検出する際に確実に機能しないことを示します。
私たちは、望ましくない世代を人間が修正した出力と比較する新しいコントラストベースの推定により、既存のエラー追跡方法の欠点を克服します。
私たちが提案する方法は、既知のグランド トゥルースを使用した合成タスク全体で既知のデータ エラーを検出する際に、平均精度 0.93 を達成でき、既存のアプローチを大幅に上回ります。
このアプローチを使用し、クリーンアップされたデータでモデルを再トレーニングすると、NYT データセットではエンティティの幻覚が 70% 削減され、E2E データセットではセマンティック エラーが 55% 削減されました。

要約(オリジナル)

Recent work has identified noisy and misannotated data as a core cause of hallucinations and unfaithful outputs in Natural Language Generation (NLG) tasks. Consequently, identifying and removing these examples is a key open challenge in creating reliable NLG systems. In this work, we introduce a framework to identify and remove low-quality training instances that lead to undesirable outputs, such as faithfulness errors in text summarization. We show that existing approaches for error tracing, such as gradient-based influence measures, do not perform reliably for detecting faithfulness errors in NLG datasets. We overcome the drawbacks of existing error tracing methods through a new, contrast-based estimate that compares undesired generations to human-corrected outputs. Our proposed method can achieve a mean average precision of 0.93 at detecting known data errors across synthetic tasks with known ground truth, substantially outperforming existing approaches. Using this approach and re-training models on cleaned data leads to a 70% reduction in entity hallucinations on the NYT dataset and a 55% reduction in semantic errors on the E2E dataset.

arxiv情報

著者 Faisal Ladhak,Esin Durmus,Tatsunori Hashimoto
発行日 2023-07-11 17:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク