RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots

要約

ChatGPT のような大規模言語モデル (LLM) は、人工知能の目覚ましい進歩を示しています。
しかし、彼らの幻覚傾向、つまりもっともらしいが誤った情報を生成する傾向は、重大な課題を引き起こしています。
ChatGPT の使用が存在しない法的判決の引用につながった最近の訴訟で見られるように、この問題は重要です。
この論文では、検索拡張生成 (RAG) が外部の知識とプロンプトを統合することで、どのように幻覚に対抗できるかを検討します。
私たちは、幻覚を誘発するように設計されたプロンプトを使用して、標準 LLM に対して RAG を経験的に評価します。
私たちの結果は、RAG は場合によっては精度を向上させますが、プロンプトがモデルの事前トレーニングされた理解と直接矛盾する場合には依然として誤解を招く可能性があることを示しています。
これらの発見は、幻覚の複雑な性質と、現実世界のアプリケーションで LLM の信頼性を確保するためのより堅牢なソリューションの必要性を浮き彫りにしています。
RAG 導入に関する実践的な推奨事項を提供し、より信頼できる LLM の開発への影響について説明します。

要約(オリジナル)

Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate — generate plausible but false information — poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT’s use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model’s pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.

arxiv情報

著者 Philip Feldman,James R. Foulds,Shimei Pan
発行日 2024-06-12 12:00:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, H.3.3 パーマリンク