Are Reasoning Models More Prone to Hallucination?

要約

最近進化した大規模な推論モデル(LRMS)は、長い考え方(COT)の推論能力を備えた複雑なタスクを解決する上で強力なパフォーマンスを示しています。
これらのLRMは、主に正式な推論タスクに関するトレーニング後に開発されているため、実際に求めるタスクの幻覚を減らすのに役立つ推論能力を一般化するかどうかは不明で議論されています。
たとえば、DeepSeek-R1は、事実を求めるベンチマークであるSimpleQAのパフォーマンスの向上を報告していますが、Openai-O3はさらに厳しい幻覚を観察しています。
この矛盾は、自然に次の研究の質問を提起します:推論モデルは幻覚を起こしやすいですか?
このペーパーでは、3つの視点から質問に対処します。
(1)最初にLRMSの幻覚について全体的な評価を実施します。
私たちの分析により、LRMSは、コールドスタートの監視微調整(SFT)と検証可能な報酬RLが一般的に幻覚を軽減する完全なトレーニング後のパイプラインを受けることが明らかになりました。
対照的に、蒸留のみとコールドスタートのないRLトレーニングの両方が、より微妙な幻覚を導入します。
(2)さまざまなトレーニング後のパイプラインがLRMSの幻覚への影響を変える理由を調査するために、行動分析を実施します。
LRMの事実に直接影響する2つの重要な認知行動を特徴付けます:欠陥の繰り返し。表面レベルの推論の試みは、同じ基礎となる欠陥の論理に繰り返し続き、最後の回答が以前のCOTプロセスと忠実に一致することに失敗します。
(3)さらに、モデルの不確実性の観点からLRMSの幻覚の背後にあるメカニズムを調査します。
LRMSの幻覚の増加は、通常、モデルの不確実性と事実上の精度との間の不整合に関連していることがわかります。
私たちの作品は、LRMSの幻覚の最初の理解を提供します。

要約(オリジナル)

Recently evolved large reasoning models (LRMs) show powerful performance in solving complex tasks with long chain-of-thought (CoT) reasoning capability. As these LRMs are mostly developed by post-training on formal reasoning tasks, whether they generalize the reasoning capability to help reduce hallucination in fact-seeking tasks remains unclear and debated. For instance, DeepSeek-R1 reports increased performance on SimpleQA, a fact-seeking benchmark, while OpenAI-o3 observes even severer hallucination. This discrepancy naturally raises the following research question: Are reasoning models more prone to hallucination? This paper addresses the question from three perspectives. (1) We first conduct a holistic evaluation for the hallucination in LRMs. Our analysis reveals that LRMs undergo a full post-training pipeline with cold start supervised fine-tuning (SFT) and verifiable reward RL generally alleviate their hallucination. In contrast, both distillation alone and RL training without cold start fine-tuning introduce more nuanced hallucinations. (2) To explore why different post-training pipelines alters the impact on hallucination in LRMs, we conduct behavior analysis. We characterize two critical cognitive behaviors that directly affect the factuality of a LRM: Flaw Repetition, where the surface-level reasoning attempts repeatedly follow the same underlying flawed logic, and Think-Answer Mismatch, where the final answer fails to faithfully match the previous CoT process. (3) Further, we investigate the mechanism behind the hallucination of LRMs from the perspective of model uncertainty. We find that increased hallucination of LRMs is usually associated with the misalignment between model uncertainty and factual accuracy. Our work provides an initial understanding of the hallucination in LRMs.

arxiv情報

著者 Zijun Yao,Yantao Liu,Yanxu Chen,Jianhui Chen,Junfeng Fang,Lei Hou,Juanzi Li,Tat-Seng Chua
発行日 2025-05-29 16:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク