RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots

要約

ChatGPTのような大規模言語モデル(LLM)は、人工知能の目覚ましい進歩を示している。しかし、LLMの幻覚傾向(もっともらしいが偽の情報を生成すること)は、重要な課題となっている。この問題は、ChatGPTの使用によって存在しない法的判決が引用された最近の裁判に見られるように、非常に重要である。本論文では、RAG(Retrieval-Augmented Generation)が外部知識をプロンプトと統合することでどのように幻覚に対抗できるかを探る。我々は、幻覚を誘発するように設計されたプロンプトを用いて、標準的なLLMに対してRAGを実証的に評価した。その結果、RAGは場合によっては精度を向上させるが、プロンプトがモデルの事前に訓練された理解と直接矛盾する場合には、まだ惑わされる可能性があることが示された。これらの発見は、幻覚の複雑な性質と、実世界のアプリケーションにおいてLLMの信頼性を確保するためのより強固なソリューションの必要性を強調している。我々は、RAGの展開に関する実用的な推奨事項を提示し、より信頼性の高いLLMの開発への示唆について議論する。

要約(オリジナル)

Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate — generate plausible but false information — poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT’s use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model’s pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.

arxiv情報

著者 Philip Feldman. James R. Foulds,Shimei Pan
発行日 2024-03-02 12:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, H.3.3 パーマリンク