Teaching Language Models to Hallucinate Less with Synthetic Tasks

要約

大規模言語モデル (LLM) は、必要な情報がすべてコンテキストに含まれているにもかかわらず、文書ベースの質問応答、会議の要約、臨床レポートの作成などの抽象的な要約タスクで頻繁に幻覚を起こします。
ただし、各最適化ステップで幻覚を効率的に評価するのは難しいため、これらのタスクで幻覚を軽減するように LLM を最適化することは困難です。
この研究では、合成タスクで幻覚を軽減すると、現実世界の下流タスクでも幻覚を軽減できることを示します。
私たちの手法である SynTra は、まず、幻覚を誘発し測定しやすい合成タスクを設計します。
次に、合成タスクのプレフィックス調整を通じて LLM のシステム メッセージを最適化し、最後にシステム メッセージを現実的で最適化が難しいタスクに転送します。
SynTra は、3 つの現実的な抽象要約タスクにわたって、監視用の合成検索タスクのみを使用して 2 つの 13B パラメーター LLM の幻覚を軽減します。
また、モデルの重みではなくシステム メッセージを最適化することが重要であることもわかりました。
合成タスクでモデル全体を微調整すると、直感に反して幻覚が増加する可能性があります。
全体として、SynTra は、合成データを柔軟に操作することで、実際の望ましくない動作を軽減できることを示しています。

要約(オリジナル)

Large language models (LLMs) frequently hallucinate on abstractive summarization tasks such as document-based question-answering, meeting summarization, and clinical report generation, even though all necessary information is included in context. However, optimizing LLMs to hallucinate less on these tasks is challenging, as hallucination is hard to efficiently evaluate at each optimization step. In this work, we show that reducing hallucination on a synthetic task can also reduce hallucination on real-world downstream tasks. Our method, SynTra, first designs a synthetic task where hallucinations are easy to elicit and measure. It next optimizes the LLM’s system message via prefix-tuning on the synthetic task, and finally transfers the system message to realistic, hard-to-optimize tasks. Across three realistic abstractive summarization tasks, SynTra reduces hallucination for two 13B-parameter LLMs using only a synthetic retrieval task for supervision. We also find that optimizing the system message rather than the model weights can be critical; fine-tuning the entire model on the synthetic task can counterintuitively increase hallucination. Overall, SynTra demonstrates that the extra flexibility of working with synthetic data can help mitigate undesired behaviors in practice.

arxiv情報

著者 Erik Jones,Hamid Palangi,Clarisse Simões,Varun Chandrasekaran,Subhabrata Mukherjee,Arindam Mitra,Ahmed Awadallah,Ece Kamar
発行日 2023-10-10 17:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク