Guiding Language Model Math Reasoning with Planning Tokens

要約

大規模言語モデル(LLM)は、思考連鎖推論のような複雑な推論タスクを実行する能力で、最近大きな関心を集めている。しかし、この能力を向上させる既存のアプローチのほとんどは、モデルの推論能力の構造的側面を無視したまま、データ駆動型の手法に大きく依存している。我々は、LLMが個々の推論ステップをうまく管理できる一方で、推論チェーン全体の一貫性を維持することに苦労していることを発見した。これを解決するために、各推論ステップの最初に、モデルのガイドとなる計画トークンを導入し、その埋め込みをモデルパラメータに追加する。我々のアプローチでは、学習可能なパラメータの増加はごくわずか(わずか0.001%)であり、完全なファインチューニング、あるいはよりパラメータ効率の良いスキームのいずれでも適用可能である。本手法を3つの異なるLLMに適用することで、本手法の有効性を実証し、3つの数学単語問題データセットにおいて、標準的なファインチューニングのベースラインと比較して顕著な精度向上を示す。

要約(オリジナル)

Large language models (LLMs) have recently attracted considerable interest for their ability to perform complex reasoning tasks, such as chain-of-thought reasoning. However, most of the existing approaches to enhance this ability rely heavily on data-driven methods, while neglecting the structural aspects of the model’s reasoning capacity. We find that while LLMs can manage individual reasoning steps well, they struggle with maintaining consistency across an entire reasoning chain. To solve this, we introduce planning tokens at the start of each reasoning step, serving as a guide for the model, and add their embeddings to the model parameters. Our approach requires a negligible increase in trainable parameters (just 0.001%) and can be applied through either full fine-tuning or a more parameter-efficient scheme. We demonstrate our method’s effectiveness by applying it to three different LLMs, showing notable accuracy improvements across three math word problem datasets w.r.t. standard fine-tuning baselines.

arxiv情報

著者 Xinyi Wang,Lucas Caccia,Oleksiy Ostapenko,Xingdi Yuan,William Yang Wang,Alessandro Sordoni
発行日 2024-02-05 18:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク