What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization

要約

要約モデルは、単一の参照の尤度(MLE)を最大化するように訓練されているため、品質メトリクスに対するキャリブレーションが不十分なテキストを生成することが多い。この問題に対処するため、最近の研究では、キャリブレーションステップが追加され、モデル自身がランク付けされた出力にさらされて関連性を改善したり、別の作業では、ポジティブセットとネガティブセットを対比して忠実度を改善したりしています。効果的ではあるが、この研究の多くは、これらのセットをどのように生成し、最適化するかに焦点を当てている。しかし、あるセットアップが他のセットアップよりも効果的である理由については、あまり知られていない。この研究では、効果的なセットの基本的な特性を明らかにする。各トレーニングインスタンスについて、大規模で多様な候補プールを形成し、キャリブレーションの微調整に使用するサブセットを系統的に変化させます。各選択戦略は、語彙の多様性やポジティブとネガティブの間のギャップの大きさなど、セットの異なる側面をターゲットにしている。3つの多様な科学的長文要約データセット(生物医学、臨床、化学ドメインにまたがる)において、特に、ネガティブセットが抽出的で生成されやすい場合、忠実度キャリブレーションが最適であること、一方、関連度キャリブレーションでは、候補間のメトリックマージンを最大化し、驚き(モデルとメトリック定義の候補順位間の不一致)を最小化すべきであることが判明した。キャリブレーションセットの作成、選択、最適化のためのコードは、https://github.com/griff4692/calibrating-summaries で入手可能です。

要約(オリジナル)

Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on how to generate and optimize these sets. Less is known about why one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise–the disagreement between model and metric defined candidate rankings–minimized. Code to create, select, and optimize calibration sets is available at https://github.com/griff4692/calibrating-summaries

arxiv情報

著者 Griffin Adams,Bichlien H Nguyen,Jake Smith,Yingce Xia,Shufang Xie,Anna Ostropolets,Budhaditya Deb,Yuan-Jyue Chen,Tristan Naumann,Noémie Elhadad
発行日 2023-05-12 17:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク