SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs

要約

チェーンオブテイ(COT)の推論により、中間推論ステップを生成することにより、大規模な言語モデル(LLMS)が複雑な推論タスクを解決できます。
ただし、既存のアプローチのほとんどは、ハードトークンデコードに焦点を当てており、離散語彙空間内の推論を制約し、常に最適ではない場合があります。
最近の努力は継続的なスペースの推論を探求していますが、彼らはしばしば壊滅的な忘却に苦しみ、適切な指示でゼロショット設定ですでにうまく機能する最先端のLLMへの適用性を制限します。
この課題に対処するために、基礎となるLLMの変更を必要としない連続空間推論のための新しいアプローチを提案します。
具体的には、軽量のアシスタントモデルを使用して、インスタンス固有のソフト思考トークンを最初の思考チェーンとして推測的に生成し、投影モジュールを介してLLMの表現スペースにマッピングされます。
5つの推論ベンチマークでの実験結果は、私たちの方法が、パラメーター効率の高い微調整を通じてLLM推論パフォーマンスを強化することを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning enables Large Language Models (LLMs) to solve complex reasoning tasks by generating intermediate reasoning steps. However, most existing approaches focus on hard token decoding, which constrains reasoning within the discrete vocabulary space and may not always be optimal. While recent efforts explore continuous-space reasoning, they often suffer from catastrophic forgetting, limiting their applicability to state-of-the-art LLMs that already perform well in zero-shot settings with a proper instruction. To address this challenge, we propose a novel approach for continuous-space reasoning that does not require modifying the underlying LLM. Specifically, we employ a lightweight assistant model to generate instance-specific soft thought tokens speculatively as the initial chain of thoughts, which are then mapped into the LLM’s representation space via a projection module. Experimental results on five reasoning benchmarks demonstrate that our method enhances LLM reasoning performance through supervised, parameter-efficient fine-tuning.

arxiv情報

著者 Yige Xu,Xu Guo,Zhiwei Zeng,Chunyan Miao
発行日 2025-02-17 18:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク