Improving the Robustness of Summarization Models by Detecting and Removing Input Noise

要約

抽象的要約モデルの評価には、通常、学習データと同じ分布のテストデータが使われる。現実の世界では、要約される文書には、テキスト抽出のアーチファクトやデータパイプラインのバグに起因する入力ノイズが含まれている可能性がある。このようなノイズに起因する分布シフトに対するモデル性能の頑健性は、比較的十分に研究されていない。我々は、様々なデータセットとモデルサイズについて、様々なタイプの入力ノイズによる、時に深刻な性能低下(最大12ROUGE-1ポイント)を定量化した大規模な実証研究を発表する。そして、余分な訓練や補助モデル、あるいはノイズの種類に関する事前知識を必要とすることなく、モデル推論中に入力に含まれるこのようなノイズを検出・除去する軽量な手法を提案する。我々の提案する手法は、性能低下を効果的に緩和し、性能低下の大部分(時には11ROUGE-1ポイントも)を回復する。

要約(オリジナル)

The evaluation of abstractive summarization models typically uses test data that is identically distributed as training data. In real-world practice, documents to be summarized may contain input noise caused by text extraction artifacts or data pipeline bugs. The robustness of model performance under distribution shift caused by such noise is relatively under-studied. We present a large empirical study quantifying the sometimes severe loss in performance (up to 12 ROUGE-1 points) from different types of input noise for a range of datasets and model sizes. We then propose a light-weight method for detecting and removing such noise in the input during model inference without requiring any extra training, auxiliary models, or even prior knowledge of the type of noise. Our proposed approach effectively mitigates the loss in performance, recovering a large fraction of the performance drop, sometimes as large as 11 ROUGE-1 points.

arxiv情報

著者 Kundan Krishna,Yao Zhao,Jie Ren,Balaji Lakshminarayanan,Jiaming Luo,Mohammad Saleh,Peter J. Liu
発行日 2023-12-04 16:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク