CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation

要約

チェーンオブシュート(COT)は、自然言語で段階的な推論を可能にすることにより、大規模な言語モデル(LLM)を強化します。
ただし、言語空間は推論のために最適ではない場合があります。
暗黙のCOTメソッドは、明示的なCOTトークンなしで推論を有効にしようとしますが、タスクのパフォーマンスで明示的なCOTメソッドに常に遅れをとっています。
コットを連続空間に蒸留する新しいフレームワークであるCODI(自己辞任による連続チェーンの考え方)を提案します。そこでは、共有モデルが教師と生徒の両方として機能し、最終的な回答を生成するトークンで隠されたアクティベーションを調整しながら、明示的かつ暗黙的なCOTを共同で学習します。
CODIは、GSM8Kでの明示的なCOTのパフォーマンスを3.1倍の圧縮を達成し、以前の最先端を28.2%上回る精度を上回る最初の暗黙のCOTメソッドです。
さらに、CODIは、より複雑なCOTデータセットに対するスケーラビリティ、堅牢性、および一般化可能性を示しています。
さらに、CODIは連続思考を解読し、推論プロセスを透明にすることにより、解釈性を保持します。
私たちの調査結果は、より効率的であるだけでなく、明示的なCOTの強力な代替品として暗黙的なCOTを確立しています。

要約(オリジナル)

Chain-of-Thought (CoT) enhances Large Language Models (LLMs) by enabling step-by-step reasoning in natural language. However, the language space may be suboptimal for reasoning. While implicit CoT methods attempt to enable reasoning without explicit CoT tokens, they have consistently lagged behind explicit CoT method in task performance. We propose CODI (Continuous Chain-of-Thought via Self-Distillation), a novel framework that distills CoT into a continuous space, where a shared model acts as both teacher and student, jointly learning explicit and implicit CoT while aligning their hidden activation on the token generating the final answer. CODI is the first implicit CoT method to match explicit CoT’s performance on GSM8k while achieving 3.1x compression, surpassing the previous state-of-the-art by 28.2% in accuracy. Furthermore, CODI demonstrates scalability, robustness, and generalizability to more complex CoT datasets. Additionally, CODI retains interpretability by decoding its continuous thoughts, making its reasoning process transparent. Our findings establish implicit CoT as not only a more efficient but a powerful alternative to explicit CoT.

arxiv情報

著者 Zhenyi Shen,Hanqi Yan,Linhai Zhang,Zhanghao Hu,Yali Du,Yulan He
発行日 2025-02-28 14:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク