Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

要約

OpenaiのO1などの大規模な言語モデル(LLM)は、テスト時間の計算をスケーリングし、人間のような深い思考を示すことにより、複雑な推論タスクで顕著な能力を示しています。
ただし、考えているという現象を特定します。これは、O1のようなLLMが、正しいソリューションに到達するための有望なパスを十分に探求することなく、異なる推論の考えを頻繁に切り替えることです。
この動作は、特に挑戦的な数学的な問題で、推論の深さの深さとパフォーマンスの低下につながります。
この問題を体系的に分析するために、3つの挑戦的なテストセットと2つの代表的なオープンソースO1様モデルで実験を実施し、頻繁に思考スイッチングが誤った応答と相関することを明らかにします。
誤った回答のトークン効率を測定することにより、アンダーリンクを定量化するための新しいメトリックを導入します。
考え直しに対処するために、思考のスイッチングペナルティヒントを使用して、思考間の早期の移行を思いとどまらせるデコード戦略を提案し、各推論パスのより深い調査を促進します。
実験結果は、モデルの微調整を必要とせずに、私たちのアプローチが挑戦的なデータセット全体で精度を向上させることを示しています。
私たちの調査結果は、O1様LLMの推論の非効率性を理解することに貢献し、問題解決能力を高めるための実用的なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) such as OpenAI’s o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

arxiv情報

著者 Yue Wang,Qiuzhi Liu,Jiahao Xu,Tian Liang,Xingyu Chen,Zhiwei He,Linfeng Song,Dian Yu,Juntao Li,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-01-30 18:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク