要約
大規模な言語モデル(LLM)が自信を持っているが間違ったまたは無関係な情報を生成する幻覚は、複雑でオープンエンドのタスクへの適用の重要な制限のままです。
中間ステップを介してモデルをガイドすることにより、マルチステップ推論を改善するための有望な方法として、チェーンオブ思考(COT)プロンプトが浮上しています。
ただし、COTだけでは幻覚の問題に完全に対処していません。
この作業では、COTと検索の高等世代(RAG)を組み合わせること、および自己整合性と自己検証戦略を適用することで、幻覚を軽減し、事実上の正確性を改善する方法を調査します。
推論中に外部の知識ソースを組み込み、モデルが独自の出力を検証または修正できるようにすることにより、より正確で一貫した応答を生成することを目指しています。
COT、COT+RAG、自己整合性、および自己検証技術に対するベースラインLLMの比較評価を提示します。
私たちの結果は、各方法の有効性を強調し、流fluさと推論の深さを維持しながら幻覚を最小限に抑えるための最も堅牢なアプローチを特定します。
要約(オリジナル)
Hallucination, where large language models (LLMs) generate confident but incorrect or irrelevant information, remains a key limitation in their application to complex, open-ended tasks. Chain-of-thought (CoT) prompting has emerged as a promising method for improving multistep reasoning by guiding models through intermediate steps. However, CoT alone does not fully address the hallucination problem. In this work, we investigate how combining CoT with retrieval-augmented generation (RAG), as well as applying self-consistency and self-verification strategies, can reduce hallucinations and improve factual accuracy. By incorporating external knowledge sources during reasoning and enabling models to verify or revise their own outputs, we aim to generate more accurate and coherent responses. We present a comparative evaluation of baseline LLMs against CoT, CoT+RAG, self-consistency, and self-verification techniques. Our results highlight the effectiveness of each method and identify the most robust approach for minimizing hallucinations while preserving fluency and reasoning depth.
arxiv情報
著者 | Adarsh Kumar,Hwiyoon Kim,Jawahar Sai Nathani,Neil Roy |
発行日 | 2025-05-13 23:57:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google