要約
大規模な言語モデル(LLM)は、体系的な推論に苦労することがわかっています。
彼らがうまく機能しているように見えるタスクでさえ、彼らのパフォーマンスはしばしば、真の推論能力ではなくショートカットに依存し、分散型(OOD)の例で崩壊するようになります。
強化学習と考え方の促しに基づく訓練後の戦略は、最近、ステップ変更として歓迎されました。
ただし、数学やプログラミングベースの問題解決を超えて、結果として生じる「大きな推論モデル」(LRMS)の可能性についてはほとんど知られていません。
この論文では、定性的空間的および時間的推論のために体系的なリレーショナル構成を必要とするタスクに焦点を当てています。
この設定により、問題の難易度を細かく制御して、OOD一般化を正確に測定できます。
ゼロショットLRMは一般に、単一パスの推論タスクでLLMのカウンターパートを上回るが、マルチパス設定では苦労していることがわかります。
比較的良い結果を示している間、微調整されたLLMはマルチパスの一般化もできません。
また、これの行動的解釈の証拠、つまりLRMが浅い分離的な推論者であるという証拠も提供します。
要約(オリジナル)
Large Language Models (LLMs) have been found to struggle with systematic reasoning. Even on tasks where they appear to perform well, their performance often depends on shortcuts, rather than on genuine reasoning abilities, leading them to collapse on out-of-distribution (OOD) examples. Post-training strategies based on reinforcement learning and chain-of-thought prompting have recently been hailed as a step change. However, little is known about the potential of the resulting “Large Reasoning Models” (LRMs) beyond maths and programming-based problem solving, where genuine OOD problems can be sparse. In this paper, we focus on tasks that require systematic relational composition for qualitative spatial and temporal reasoning. The setting allows fine control over problem difficulty to precisely measure OOD generalization. We find that, zero-shot LRMs generally outperform their LLM counterparts in single-path reasoning tasks but struggle in the multi-path setting. Whilst showing comparatively better results, fine-tuned LLMs are also not capable of multi-path generalization. We also provide evidence for the behavioral interpretation for this, i.e., that LRMs are shallow disjunctive reasoners.
arxiv情報
著者 | Irtaza Khalid,Amir Masoud Nourollah,Steven Schockaert |
発行日 | 2025-06-02 17:37:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google