Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

要約

OpenAI o1 のようなモデルの顕著なパフォーマンスは、推論中に人間のような長時間の思考をエミュレートする能力に起因していると考えられます。
これらのモデルは拡張思考連鎖 (CoT) プロセスを採用し、問題解決能力を強化するための複数の戦略を検討します。
ただし、テスト中に計算リソースをインテリジェントかつ効率的に拡張する方法という重要な疑問が残ります。
この論文は、これらのモデルにおける考えすぎという一般的な問題、つまり利益が最小限の単純な問題に過剰な計算リソースが割り当てられる問題についての最初の包括的な研究を紹介します。
私たちは、o1 のようなモデルによる計算リソースの合理的な使用を評価するために、結果とプロセスの両方の観点から新しい効率指標を導入します。
自己トレーニング パラダイムを使用して、精度を損なうことなく、考えすぎを軽減し、推論プロセスを合理化する戦​​略を提案します。
実験結果は、GSM8K、MATH500、GPQA、AIME など、さまざまな難易度のテストセット全体でモデルのパフォーマンスを維持しながら、私たちのアプローチが計算オーバーヘッドをうまく削減できることを示しています。

要約(オリジナル)

The remarkable performance of models like the OpenAI o1 can be attributed to their ability to emulate human-like long-time thinking during inference. These models employ extended chain-of-thought (CoT) processes, exploring multiple strategies to enhance problem-solving capabilities. However, a critical question remains: How to intelligently and efficiently scale computational resources during testing. This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit. We introduce novel efficiency metrics from both outcome and process perspectives to evaluate the rational use of computational resources by o1-like models. Using a self-training paradigm, we propose strategies to mitigate overthinking, streamlining reasoning processes without compromising accuracy. Experimental results show that our approach successfully reduces computational overhead while preserving model performance across a range of testsets with varying difficulty levels, such as GSM8K, MATH500, GPQA, and AIME.

arxiv情報

著者 Xingyu Chen,Jiahao Xu,Tian Liang,Zhiwei He,Jianhui Pang,Dian Yu,Linfeng Song,Qiuzhi Liu,Mengfei Zhou,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2024-12-30 18:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク