Benchmarking Reasoning Robustness in Large Language Models

要約

Deepseekなどの推論における最近の大規模な言語モデル(LLMS)の成功にもかかわらず、我々は初めて堅牢性と一般化の推論における重要なジレンマを特定します。斬新なデータまたは不完全なデータの重要なパフォーマンスの劣化は、体系的な推論ではなく、記憶されたパターンへの依存を示唆しています。
綿密な調査により、この問題の根底にある4つの重要な制限が明らかになりました。(1)位置バイアス – モデルはマルチクエリ入力の以前のクエリを支持しますが、後者の間違ったクエリに答えることができます(たとえば、GPT-4oの精度は75.8%から72.8%に低下します)。
(2)命令の感度 – QWEN2.5シリーズで5.0〜7.5%、補助ガイダンスを備えたDeepSeek-V3で5.0%のパフォーマンス低下。
(3)数値的脆弱性 – 値の置換により、精度が大幅に低下します(たとえば、GPT-4Oは97.5パーセントから82.5パーセントに減少し、GPT-O1-MINIは97.5パーセントから92.5パーセントに低下します)。
(4)メモリの依存関係 – 重要なデータが欠落している場合、モデルは当てはまりに頼ります。
これらの発見は、厳密な論理的推論をめぐるヒューリスティックのリコールへの依存をさらに強調し、堅牢性の推論における課題を示しています。
これらの堅牢性の課題を包括的に調査するために、このペーパーでは、推論のギャップを公開するために情報が欠落している幻覚を悪用する数学ロブと呼ばれる新しいベンチマークを紹介します。
これは、トレーニング分布によく似た多様なデータセットを生成し、全体的な堅牢性評価を促進し、より堅牢な推論フレームワークの開発を進めるための命令ベースのアプローチによって達成されます。
フィールド要約の悪いキャラクター。

要約(オリジナル)

Despite the recent success of large language models (LLMs) in reasoning such as DeepSeek, we for the first time identify a key dilemma in reasoning robustness and generalization: significant performance degradation on novel or incomplete data, suggesting a reliance on memorized patterns rather than systematic reasoning. Our closer examination reveals four key unique limitations underlying this issue:(1) Positional bias–models favor earlier queries in multi-query inputs but answering the wrong one in the latter (e.g., GPT-4o’s accuracy drops from 75.8 percent to 72.8 percent); (2) Instruction sensitivity–performance declines by 5.0 to 7.5 percent in the Qwen2.5 Series and by 5.0 percent in DeepSeek-V3 with auxiliary guidance; (3) Numerical fragility–value substitution sharply reduces accuracy (e.g., GPT-4o drops from 97.5 percent to 82.5 percent, GPT-o1-mini drops from 97.5 percent to 92.5 percent); and (4) Memory dependence–models resort to guesswork when missing critical data. These findings further highlight the reliance on heuristic recall over rigorous logical inference, demonstrating challenges in reasoning robustness. To comprehensively investigate these robustness challenges, this paper introduces a novel benchmark, termed as Math-RoB, that exploits hallucinations triggered by missing information to expose reasoning gaps. This is achieved by an instruction-based approach to generate diverse datasets that closely resemble training distributions, facilitating a holistic robustness assessment and advancing the development of more robust reasoning frameworks. Bad character(s) in field Abstract.

arxiv情報

著者 Tong Yu,Yongcheng Jing,Xikun Zhang,Wentao Jiang,Wenjie Wu,Yingjie Wang,Wenbin Hu,Bo Du,Dacheng Tao
発行日 2025-03-06 15:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク