On Uncertainty Calibration and Selective Generation in Probabilistic Neural Summarization: A Benchmark Study

要約

タイトル:確率的ニューラル要約における不確実性キャリブレーションと選択的生成についてのベンチマーク研究

要約:
– 現代の深層学習による要約モデルは、ベンチマークの性能が高いものの、誤った予測の不確実性を示しやすい。
– これは、低品質な予測に対しても高い自信を持つため、リアルワールドのアプリケーションにおいて信頼性が低下する可能性があることを意味する。
– 確率的深層学習手法は、不確実性の誤差問題の解決策としてよく使われる。
– しかし、複雑な自己回帰型要約タスクにおけるその相対的な効果はあまり理解されていない。
– 本研究では、異なる最新の確率的手法の有効性を、難易度の異なる3つの大規模ベンチマークで徹底的に調査し、モデルの生成と不確実性の品質を向上させることができることを示す。
– また、NLPコミュニティで広く採用されている確率的手法(例:Deep EnsembleやMonte Carlo Dropout)の失敗パターンを明らかにし、データセットに適した手法を選択することの重要性を示唆する。

要約(オリジナル)

Modern deep models for summarization attains impressive benchmark performance, but they are prone to generating miscalibrated predictive uncertainty. This means that they assign high confidence to low-quality predictions, leading to compromised reliability and trustworthiness in real-world applications. Probabilistic deep learning methods are common solutions to the miscalibration problem. However, their relative effectiveness in complex autoregressive summarization tasks are not well-understood. In this work, we thoroughly investigate different state-of-the-art probabilistic methods’ effectiveness in improving the uncertainty quality of the neural summarization models, across three large-scale benchmarks with varying difficulty. We show that the probabilistic methods consistently improve the model’s generation and uncertainty quality, leading to improved selective generation performance (i.e., abstaining from low-quality summaries) in practice. We also reveal notable failure patterns of probabilistic methods widely-adopted in NLP community (e.g., Deep Ensemble and Monte Carlo Dropout), cautioning the importance of choosing appropriate method for the data setting.

arxiv情報

著者 Polina Zablotskaia,Du Phan,Joshua Maynez,Shashi Narayan,Jie Ren,Jeremiah Liu
発行日 2023-04-17 23:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク