要約
大規模な言語モデル(LLM)は最近、計画の問題を解決する上で強い可能性を実証していますが、柔軟性と複雑さの間にトレードオフがあります。
LLMは、ゼロショットプランナー自体として、マルチコンストラリングや長老のタスクなどの複雑な計画問題の有効な計画を直接生成することができません。
一方、複雑な計画問題を解決することを目的とした多くのフレームワークは、タスク固有のコンテキストの例や事前に定義された批評家/検証剤など、タスク固有の準備努力に依存していることが多く、クロスタスクの一般化機能を制限します。
この論文では、多くの計画問題の中核は最適化の問題にあることを観察することにより、これらの課題に取り組みます:制約の対象となる目標を使用して最適なソリューション(ベストプラン)を検索すること(決定の前提条件と効果)。
LLMSのCommonsense、推論、およびプログラミング機能により、これにより、計画問題を計画するためのユニバーサルLLMベースのアプローチの可能性が開かれます。
この観察に触発されて、LLMFPを提案します。LLMFPは、LLMSを活用して計画の問題から重要な情報をキャプチャし、タスク固有の例を必要とせずに最適化の問題として正式に定式化および解決する汎用フレームワークを提案します。
マルチコンストレントの意思決定からマルチステップ計画の問題に至るまで、LLMFPを9つの計画問題に適用し、LLMFPがGPT-4OおよびClaude 3.5ソネットの9つのタスクで平均83.7%と86.8%の最適レートを達成し、有意にアウトパフォームすることを実証します。
37.6%および40.7%の改善を伴う最高のベースライン(Openai O1-Previewを使用した直接計画)。
また、Ablation実験でLLMFPのコンポーネントを検証し、根本的な成功と失敗の理由を分析しました。
プロジェクトページ:https://sites.google.com/view/llmfp。
要約(オリジナル)
While large language models (LLMs) have recently demonstrated strong potential in solving planning problems, there is a trade-off between flexibility and complexity. LLMs, as zero-shot planners themselves, are still not capable of directly generating valid plans for complex planning problems such as multi-constraint or long-horizon tasks. On the other hand, many frameworks aiming to solve complex planning problems often rely on task-specific preparatory efforts, such as task-specific in-context examples and pre-defined critics/verifiers, which limits their cross-task generalization capability. In this paper, we tackle these challenges by observing that the core of many planning problems lies in optimization problems: searching for the optimal solution (best plan) with goals subject to constraints (preconditions and effects of decisions). With LLMs’ commonsense, reasoning, and programming capabilities, this opens up the possibilities of a universal LLM-based approach to planning problems. Inspired by this observation, we propose LLMFP, a general-purpose framework that leverages LLMs to capture key information from planning problems and formally formulate and solve them as optimization problems from scratch, with no task-specific examples needed. We apply LLMFP to 9 planning problems, ranging from multi-constraint decision making to multi-step planning problems, and demonstrate that LLMFP achieves on average 83.7% and 86.8% optimal rate across 9 tasks for GPT-4o and Claude 3.5 Sonnet, significantly outperforming the best baseline (direct planning with OpenAI o1-preview) with 37.6% and 40.7% improvements. We also validate components of LLMFP with ablation experiments and analyzed the underlying success and failure reasons. Project page: https://sites.google.com/view/llmfp.
arxiv情報
著者 | Yilun Hao,Yang Zhang,Chuchu Fan |
発行日 | 2025-01-29 16:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google