要約
この研究では、計算冗長性と長いCOTでの報酬の割り当ての遅延によって引き起こされるコンピューティングリソースのコストと消費を削減するために、適応的な推論時間と手順を備えた動的チェーン(D-COT)を提案しています。
研究者は、シミュレーション実験を使用して、GPTSに基づいたPythonシミュレーターと組み合わせたPython 3.13アイドルを介したD-COTの統合をシミュレートしました。
同時に、研究者はDeepSeek R1をコントロールグループとして使用して、MIT OpenCoursewareの線形代数試験の質問を処理する際のD-COTシミュレーターのパフォーマンスをテストおよび比較しました。
実験結果は、D-COTが3つの指標の長いCOTに基づいてDeepSeek R1よりも優れていることを示しています:推論時間、COTの長さ(推論ステップ)、トークンカウントは、コンピューティングリソース消費の大幅な削減を達成します。
さらに、この研究は、将来の動的な深い推論フレームワークのリファレンスとして使用される深い推論最適化に潜在的な価値を持っています。
要約(オリジナル)
To reduce the cost and consumption of computing resources caused by computational redundancy and delayed reward assignment in long CoT, this research proposes the dynamic chain-of-thought (D-CoT) with adaptive reasoning time and steps. The researcher used simulation experiment to simulate the integration of D-CoT through Python 3.13 IDLE combined with a Python simulator based on GPTs. At the same time, the researcher used DeepSeek R1 as a control group to test and compare the performance of the D-CoT simulator in processing MIT OpenCourseWare’s linear algebra exam questions. Experimental results show that D-CoT is better than DeepSeek R1 based on long CoT in three indicators: reasoning time, CoT length (reasoning steps) and token count, which achieves a significant reduction in computing resource consumption. In addition, this research has potential value in deep reasoning optimization that is used as a reference for future dynamic deep reasoning frameworks.
arxiv情報
著者 | Libo Wang |
発行日 | 2025-02-25 17:19:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google