Non-myopic Generation of Language Model for Reasoning and Planning

要約

大規模言語モデルは、複雑な問題を連続したステップに分解することにより、推論と計画において優れた能力を実証してきました。
LLM は、数学的問題解決やコーディングなどのさまざまな分野で成功を収めていますが、自己回帰デコーディングの固有の近視眼的な性質により、信頼性が高く最適な計画を確実に行うという課題に直面しています。
この論文では、最適制御の観点から LLM 推論を再検討し、モデル予測制御を活用して計画精度を向上させる新しい方法である予測デコーディングを提案します。
Predictive-Decoding は、予測軌道に基づいて LLM 分布の重み付けを変更することで、初期のエラーを軽減し、近視眼的ではない計画を促進することを目的としています。
私たちの実験では、数学、コーディング、エージェントなどの幅広いタスクで大幅な改善が見られました。
さらに、予測デコーディングは計算効率を実証し、少ない計算リソースで検索ベースラインを上回るパフォーマンスを発揮します。
この調査は、LLM 計画機能の最適化に関する洞察を提供します。

要約(オリジナル)

Large Language Models have demonstrated remarkable abilities in reasoning and planning by breaking down complex problems into sequential steps. Despite their success in various domains like mathematical problem-solving and coding, LLMs face challenges in ensuring reliable and optimal planning due to their inherent myopic nature of autoregressive decoding. This paper revisits LLM reasoning from an optimal-control perspective, proposing a novel method, Predictive-Decoding, that leverages Model Predictive Control to enhance planning accuracy. By re-weighting LLM distributions based on foresight trajectories, Predictive-Decoding aims to mitigate early errors and promote non-myopic planning. Our experiments show significant improvements in a wide range of tasks for math, coding, and agents. Furthermore, Predictive-Decoding demonstrates computational efficiency, outperforming search baselines with reduced computational resources. This study provides insights into optimizing LLM planning capabilities.

arxiv情報

著者 Chang Ma,Haiteng Zhao,Junlei Zhang,Junxian He,Lingpeng Kong
発行日 2024-10-23 07:02:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク