CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration

要約

近年、大規模言語モデル (LLM) は、特にプロンプ​​トに基づいて条件付けされたテキストを生成する際に、大規模な場合に顕著な機能を示しています。
私たちの研究では、out-of-domain~(
OOD) 抽出的質問応答~(QA) セットアップにおける SLM のパフォーマンス。
さまざまな LLM ジェネレーターにわたって、このようなデータ拡張により OOD パフォーマンスが一貫して向上し、信頼性ベースのキャリブレーター モデルと理論的根拠に基づいて拡張されたキャリブレーター モデルの両方のモデル キャリブレーションが向上することを示します。
さらに、これらのパフォーマンスの向上は、表面形式と意味内容の点で CF インスタンスの多様性が高まったことと相関しています。
最後に、キャリブレーションが容易な CF 拡張モデルも、重要性を割り当てる際にはるかに低いエントロピーを示すことを示し、合理的拡張キャリブレーターが簡潔な説明を好むことを示しています。

要約(オリジナル)

In recent years, large language models (LLMs) have shown remarkable capabilities at scale, particularly at generating text conditioned on a prompt. In our work, we investigate the use of LLMs to augment training data of small language models~(SLMs) with automatically generated counterfactual~(CF) instances — i.e. minimally altered inputs — in order to improve out-of-domain~(OOD) performance of SLMs in the extractive question answering~(QA) setup. We show that, across various LLM generators, such data augmentation consistently enhances OOD performance and improves model calibration for both confidence-based and rationale-augmented calibrator models. Furthermore, these performance improvements correlate with higher diversity of CF instances in terms of their surface form and semantic content. Finally, we show that CF augmented models which are easier to calibrate also exhibit much lower entropy when assigning importance, indicating that rationale-augmented calibrators prefer concise explanations.

arxiv情報

著者 Rachneet Sachdeva,Martin Tutek,Iryna Gurevych
発行日 2024-02-13 10:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク