Guiding Language Model Reasoning with Planning Tokens

要約

大規模言語モデル (LLM) は、思考連鎖推論などの複雑な推論タスクを実行できる機能として、最近大きな関心を集めています。
ただし、この能力を強化するための既存のアプローチのほとんどは、データ駆動型の手法に大きく依存しており、モデルの推論能力の構造的側面は無視されています。
LLM は個々の推論ステップをうまく管理できますが、推論チェーン全体で一貫性を維持するのに苦労していることがわかりました。
これを解決するために、モデルのガイドとして機能する「計画トークン」を各推論ステップの開始時に導入します。
これらのトークンの埋め込みは、残りのモデル パラメーターとともに微調整されます。
私たちのアプローチは、トレーニング可能なパラメーターのごくわずかな増加 (わずか 0.001%) を必要とし、完全な微調整またはよりパラメーター効率の高いスキームのいずれかを通じて適用できます。
私たちの手法を 3 つの異なる LLM に適用することでその有効性を実証し、3 つの数学文章題データセット全体で顕著な精度の向上を示しています。
単純な思考連鎖によるベースラインの微調整。

要約(オリジナル)

Large language models (LLMs) have recently attracted considerable interest for their ability to perform complex reasoning tasks, such as chain-of-thought reasoning. However, most of the existing approaches to enhance this ability rely heavily on data-driven methods, while neglecting the structural aspects of the model’s reasoning capacity. We find that while LLMs can manage individual reasoning steps well, they struggle with maintaining consistency across an entire reasoning chain. To solve this, we introduce ‘planning tokens’ at the start of each reasoning step, serving as a guide for the model. These token embeddings are then fine-tuned along with the rest of the model parameters. Our approach requires a negligible increase in trainable parameters (just 0.001%) and can be applied through either full fine-tuning or a more parameter-efficient scheme. We demonstrate our method’s effectiveness by applying it to three different LLMs, showing notable accuracy improvements across three math word problem datasets w.r.t. plain chain-of-thought fine-tuning baselines.

arxiv情報

著者 Xinyi Wang,Lucas Caccia,Oleksiy Ostapenko,Xingdi Yuan,Alessandro Sordoni
発行日 2023-12-22 04:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク