要約
人々は大規模な言語モデルのコンテンツ生成スキルに感銘を受けますが、ChatGPT などの LLM の使用は、コンテンツのドメイン基盤によって制限されます。
生成されたコンテンツの正確性と根拠は、検索拡張生成 (RAG) の結果など、検証されたコンテキストに基づいている必要があります。
LLM をカスタマイズされたドメインに適応させる場合の重要な問題の 1 つは、生成された応答が不完全であることが多いか、追加が検証されず、幻覚が現れる可能性があることです。
幻覚検出に関するこれまでの研究は、評価指標に焦点を当ててきましたが、評価指標は動的ドメインに簡単に適応できず、ジェイルブレイクなどの攻撃に対して脆弱になる可能性があります。
この研究では、1) RAG コンテキストの知識トリプレットを活用して幻覚を修正する後処理アルゴリズム、2) RAG コンテキストを融合して生成プロセスをガイドするデュアル デコーダ モデルを提案します。
要約(オリジナル)
Although people are impressed by the content generation skills of large language models, the use of LLMs, such as ChatGPT, is limited by the domain grounding of the content. The correctness and groundedness of the generated content need to be based on a verified context, such as results from Retrieval-Augmented Generation (RAG). One important issue when adapting LLMs to a customized domain is that the generated responses are often incomplete, or the additions are not verified and may even be hallucinated. Prior studies on hallucination detection have focused on evaluation metrics, which are not easily adaptable to dynamic domains and can be vulnerable to attacks like jail-breaking. In this work, we propose 1) a post-processing algorithm that leverages knowledge triplets in RAG context to correct hallucinations and 2) a dual-decoder model that fuses RAG context to guide the generation process.
arxiv情報
著者 | Xiaofeng Zhu,Jaya Krishna Mandivarapu |
発行日 | 2024-11-12 15:26:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google