DART: Distilling Autoregressive Reasoning to Silent Thought

要約

チェーンオブテーブ(COT)の推論は、複雑なタスクの解決において大規模な言語モデル(LLM)を大幅に進めてきました。
ただし、その自己回帰パラダイムは、重要な計算オーバーヘッドにつながり、潜伏感度に敏感なアプリケーションでの展開を妨げます。
これに対処するために、\ textbf {dart}(\ textbf {d} istilling \ textbf {a} utoregressive \ textbf {r} silent \ textbf {t} hought)を提案します。
具体的には、DARTは2つのトレーニング経路を導入します。従来の推論のためのCOT経路と、いくつかのSTトークンから直接回答を生成するST経路です。
ST経路は、軽量の推論進化モジュール(REM)を利用して隠された状態をCOT経路に揃え、STトークンが有益な埋め込みに進化できるようにします。
推論中、ST経路のみが活性化され、進化するSTトークンを活用して答えを直接提供します。
広範な実験結果は、DARTが既存のベースラインに匹敵する推論パフォーマンスを達成しながら、効率的な推論のための実現可能な代替手段として機能することを実現することを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced Large Language Models (LLMs) in solving complex tasks. However, its autoregressive paradigm leads to significant computational overhead, hindering its deployment in latency-sensitive applications. To address this, we propose \textbf{DART} (\textbf{D}istilling \textbf{A}utoregressive \textbf{R}easoning to Silent \textbf{T}hought), a self-distillation framework that enables LLMs to replace autoregressive CoT with non-autoregressive Silent Thought (ST). Specifically, DART introduces two training pathways: the CoT pathway for traditional reasoning and the ST pathway for generating answers directly from a few ST tokens. The ST pathway utilizes a lightweight Reasoning Evolvement Module (REM) to align its hidden states with the CoT pathway, enabling the ST tokens to evolve into informative embeddings. During inference, only the ST pathway is activated, leveraging evolving ST tokens to deliver the answer directly. Extensive experimental results demonstrate that DART achieves comparable reasoning performance to existing baselines while offering significant efficiency gains, serving as a feasible alternative for efficient reasoning.

arxiv情報

著者 Nan Jiang,Ziming Wu,De-Chuan Zhan,Fuming Lai,Shaobing Lian
発行日 2025-06-13 13:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク