要約
大規模言語モデル (LLM) は頻繁に幻覚を起こし、ミッションクリティカルな状況での信頼性を妨げます。
この問題に対処する 1 つのアプローチは、生成されたコンテンツとともに関連情報源への引用を提供し、世代の検証可能性を高めることです。
しかし、解答の中で文章を正確に引用することは依然として大きな課題です。
この論文では、事実整合性モデル (FCM) を活用した弱教師微調整手法を提案します。
私たちのアプローチは、引用を含むテキストの生成と、FCM でフィルターされた引用データによる教師付き微調整を交互に行います。
集中的な学習が目標に統合され、FCM によって測定された事実の単位トークンを強調するように微調整プロセスが指示されます。
さまざまな命令調整された LLM を使用した ALCE 少数ショット引用ベンチマークの結果は、コンテキスト内学習、バニラ教師付き微調整、および最先端の手法と比較して優れたパフォーマンスを示し、平均で 34.1 ドル、15.5 ドルの改善が見られました。
それぞれ、$、$10.5$ 引用 F$_1$ ポイントです。
さらに、ドメイン転送設定では、取得された引用生成能力が目に見えないデータセットに確実に転送されることを示します。
特に、引用の改善により、ベースライン全体での事実誤認率が最も低くなりました。
要約(オリジナル)
Large Language Models (LLMs) frequently hallucinate, impeding their reliability in mission-critical situations. One approach to address this issue is to provide citations to relevant sources alongside generated content, enhancing the verifiability of generations. However, citing passages accurately in answers remains a substantial challenge. This paper proposes a weakly-supervised fine-tuning method leveraging factual consistency models (FCMs). Our approach alternates between generating texts with citations and supervised fine-tuning with FCM-filtered citation data. Focused learning is integrated into the objective, directing the fine-tuning process to emphasise the factual unit tokens, as measured by an FCM. Results on the ALCE few-shot citation benchmark with various instruction-tuned LLMs demonstrate superior performance compared to in-context learning, vanilla supervised fine-tuning, and state-of-the-art methods, with an average improvement of $34.1$, $15.5$, and $10.5$ citation F$_1$ points, respectively. Moreover, in a domain transfer setting we show that the obtained citation generation ability robustly transfers to unseen datasets. Notably, our citation improvements contribute to the lowest factual error rate across baselines.
arxiv情報
著者 | Rami Aly,Zhiqiang Tang,Samson Tan,George Karypis |
発行日 | 2024-07-15 16:04:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google