Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) プロンプトの使用による推論と複数ステップの問題解決を必要とするタスクにおいて顕著な機能を実証しています。
ただし、完全な CoT プロセスを生成すると、出力シーケンスが大幅に長くなり、推論中の計算コストと待ち時間が増加します。
この課題に対処するために、私たちはセマンティック アラインメントを通じて CoT プロセスを圧縮し、CoT 推論の利点を維持しながらより効率的なデコードを可能にする新しいアプローチを提案します。
私たちの方法では、元の CoT 出力と意味的に整合したコンパクトな特別なトークン表現に完全な思考プロセスを生成および圧縮することを学習する補助 CoT モデルを導入します。
この圧縮された表現は、Hidden Chain-of-Thought (HCoT) モデルの入力に統合されます。
トレーニング プロセスは 2 段階の手順に従います。まず、CoT モデルが最適化され、対比損失を使用してグラウンド トゥルース CoT 出力と一致する圧縮トークン表現が生成されます。
その後、CoT モデルのパラメーターが凍結された状態で、HCoT モデルが微調整され、プレフィックス命令と CoT モデルからの圧縮された CoT 表現を条件とした正確な後続の予測が生成されます。
数学的推論、エージェント呼び出し、質問応答という 3 つの困難なドメインにわたる広範な実験により、セマンティック圧縮アプローチが完全な CoT ベースラインと比較して競合または向上したパフォーマンスを達成し、同時にデコード時間で少なくとも 1.5​​ 倍の大幅な高速化を実現できることが実証されました。
さらに、対照的な学習目標を組み込むことで、圧縮表現の品質がさらに向上し、CoT プロンプトの改善とタスクの精度の向上につながります。
私たちの取り組みは、幅広いアプリケーションにわたって LLM の複数ステップの推論機能をより効率的に活用する道を切り開きます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in tasks requiring reasoning and multi-step problem-solving through the use of chain-of-thought (CoT) prompting. However, generating the full CoT process results in significantly longer output sequences, leading to increased computational costs and latency during inference. To address this challenge, we propose a novel approach to compress the CoT process through semantic alignment, enabling more efficient decoding while preserving the benefits of CoT reasoning. Our method introduces an auxiliary CoT model that learns to generate and compress the full thought process into a compact special token representation semantically aligned with the original CoT output. This compressed representation is then integrated into the input of the Hidden Chain-of-Thought (HCoT) model. The training process follows a two-stage procedure: First, the CoT model is optimized to generate the compressed token representations aligned with the ground-truth CoT outputs using a contrastive loss. Subsequently, with the CoT model parameters frozen, the HCoT model is fine-tuned to generate accurate subsequent predictions conditioned on the prefix instruction and the compressed CoT representations from the CoT model. Extensive experiments across three challenging domains – mathematical reasoning, agent invocation, and question answering – demonstrate that our semantic compression approach achieves competitive or improved performance compared to the full CoT baseline, while providing significant speedups of at least 1.5x in decoding time. Moreover, incorporating contrastive learning objectives further enhances the quality of the compressed representations, leading to better CoT prompting and improved task accuracy. Our work paves the way for more efficient exploitation of multi-step reasoning capabilities in LLMs across a wide range of applications.

arxiv情報

著者 Tianqiao Liu,Zui Chen,Zitao Liu,Mi Tian,Weiqi Luo
発行日 2024-09-13 06:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク