System-1.x: Learning to Balance Fast and Slow Planning with Language Models

要約

言語モデルを使用すると、長期計画の問題を 2 つの異なるモードで解決できます。1 つは明示的な検索やバックトラックを行わずに計画を直接生成する高速な「システム 1」モード、もう 1 つは低速な「システム 2」モードで、段階的に計画を立てます。
-step は、可能なアクションを明示的に検索します。
通常、システム 2 はより効果的ですが、計算コストも高くつくため、長期の計画や大規模なアクション スペースには実行できません。
さらに、孤立したシステム 1 または 2 はユーザーの最終目標を無視し、モデルの動作を制御する方法を提供できません。
この目的を達成するために、私たちは、ハイブリッド計画を生成し、当面の問題の難易度に基づいて 2 つの計画モード間のバランスを取ることができる、LLM を使用した制御可能な計画フレームワークである System-1.x Planner を提案します。
System-1.x は、(i) コントローラー、(ii) System-1 Planner、および (iii) System-2 Planner で構成されます。
システム 1 と 2 の間の混合を管理するユーザー指定のハイブリッド化係数 (x) に基づいて、コントローラーは問題をサブ目標に分解し、それぞれシステム 1 または 2 で解決するのが簡単か難しいかを分類します。

単一のベース LLM 上で 3 つのコンポーネントすべてを微調整し、監視として検索トレースのみを必要とします。
2 つの多様な計画タスク (Maze Navigation と Blocksworld) を使った実験では、System-1.x Planner が System-1 Planner、A* 検索を近似するように訓練された System-2 Planner、およびシンボリック プランナー (A*
)。
私たちはプランナーの次の重要な特性を実証します: (1) 制御性: ハイブリダイゼーション係数を増やすと (例: System-1.75 対 1.5)、より多くの検索が実行され、パフォーマンスが向上します。 (2) 柔軟性: ニューラル シンボルを使用して神経記号バリアントを構築することによって
システム 1 とシンボリック システム 2 では、既存のシンボリック手法を使用できます。(3) 一般化可能性: さまざまな検索アルゴリズムから学習できるため、この手法は検索アルゴリズムの選択に対して堅牢です。

要約(オリジナル)

Language models can be used to solve long-horizon planning problems in two distinct modes: a fast ‘System-1’ mode, directly generating plans without any explicit search or backtracking, and a slow ‘System-2’ mode, planning step-by-step by explicitly searching over possible actions. While System-2 is typically more effective, it is also more computationally expensive, making it infeasible for long plans or large action spaces. Moreover, isolated System-1 or 2 ignores the user’s end goals, failing to provide ways to control the model’s behavior. To this end, we propose the System-1.x Planner, a controllable planning framework with LLMs that is capable of generating hybrid plans and balancing between the two planning modes based on the difficulty of the problem at hand. System-1.x consists of (i) a controller, (ii) a System-1 Planner, and (iii) a System-2 Planner. Based on a user-specified hybridization factor (x) governing the mixture between System-1 and 2, the controller decomposes a problem into sub-goals, and classifies them as easy or hard to be solved by either System-1 or 2, respectively. We fine-tune all three components on top of a single base LLM, requiring only search traces as supervision. Experiments with two diverse planning tasks — Maze Navigation and Blocksworld — show that our System-1.x Planner outperforms a System-1 Planner, a System-2 Planner trained to approximate A* search, and also a symbolic planner (A*). We demonstrate the following key properties of our planner: (1) controllability: increasing the hybridization factor (e.g., System-1.75 vs 1.5) performs more search, improving performance, (2) flexibility: by building a neuro-symbolic variant with a neural System-1 and a symbolic System-2, we can use existing symbolic methods, and (3) generalizability: by being able to learn from different search algorithms, our method is robust to the choice of search algorithm.

arxiv情報

著者 Swarnadeep Saha,Archiki Prasad,Justin Chih-Yao Chen,Peter Hase,Elias Stengel-Eskin,Mohit Bansal
発行日 2024-07-19 15:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク