要約
LLMの潜在能力をアクティブにするための効果的なアプローチとして、チェーンオブシャーチ(COT)の推論が浮上しています。
興味深いことに、COTの推論とセルフトレーニングの両方がコアの目的を共有していることを観察します。モデル生成情報を繰り返して、予測の不確実性を徐々に減らすことです。
この洞察に基づいて、推論パフォーマンスを向上させるための新しいCOTフレームワークを提案します。
フレームワークには、2つの重要なコンポーネントが統合されています。(i)初期推論プロセスを最適化するタスク固有のプロンプトモジュール、および(ii)推論プロセスを動的に改良し、以前のCOTアプローチの制限に対処する適応的な推論イテレーションモジュール、つまり
– 連続的な推論反復間の整理と高い類似性。
広範な実験は、提案された方法がパフォーマンスと計算効率の両方で大きな利点を達成することを示しています。
要約(オリジナル)
Chain-of-thought (CoT) reasoning has emerged as an effective approach for activating latent capabilities in LLMs. Interestingly, we observe that both CoT reasoning and self-training share the core objective: iteratively leveraging model-generated information to progressively reduce prediction uncertainty. Building on this insight, we propose a novel CoT framework to improve reasoning performance. Our framework integrates two key components: (i) a task-specific prompt module that optimizes the initial reasoning process, and (ii) an adaptive reasoning iteration module that dynamically refines the reasoning process and addresses the limitations of previous CoT approaches, \ie over-reasoning and high similarity between consecutive reasoning iterations. Extensive experiments demonstrate that the proposed method achieves significant advantages in both performance and computational efficiency.
arxiv情報
著者 | Zongqian Wu,Baoduo Xu,Ruochen Cui,Mengmeng Zhan,Xiaofeng Zhu,Lei Feng |
発行日 | 2025-02-12 11:41:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google