Fine-Tuning Large Language Models to Appropriately Abstain with Semantic Entropy

要約

大規模言語モデル (LLM) は幻覚を起こすことが知られており、それにより、もっともらしいが不正確なテキストが生成されます。
この現象は、医療や法律などの重要な用途に重大なリスクをもたらすため、強力な幻覚軽減戦略が必要です。
最近の研究では、LLM に自分の知識や能力を超えた質問に答えるのを避けるよう教えるための微調整方法が提案されていますが、これらの方法はグラウンドトゥルースのラベルの存在に依存しているか、短い形式の応答に限定されています。
これらの制限に対処するために、外部ラベルを必要としないモデルへの内省から導出される不確実性尺度であるセマンティック エントロピーを使用した微調整を提案します。
私たちのアプローチは、以前の研究を使用して微調整されたモデルと同等またはそれを上回り、さまざまなデータセット上で短い形式と長い形式の世代の両方で強力なパフォーマンスを達成することを実証します。

要約(オリジナル)

Large Language Models (LLMs) are known to hallucinate, whereby they generate plausible but inaccurate text. This phenomenon poses significant risks in critical applications, such as medicine or law, necessitating robust hallucination mitigation strategies. While recent works have proposed fine-tuning methods to teach LLMs to abstain from answering questions beyond their knowledge or capabilities, these methods rely on the existence of ground-truth labels or are limited to short-form responses. To address these limitations, we propose fine-tuning using semantic entropy, an uncertainty measure derived from introspection into the model which does not require external labels. We demonstrate that our approach matches or outperforms models fine-tuned using prior work and achieves strong performance for both short and long-form generations on a range of datasets.

arxiv情報

著者 Benedict Aaron Tjandra,Muhammed Razzak,Jannik Kossen,Kunal Handa,Yarin Gal
発行日 2024-10-22 17:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク