要約
シンボリック プランナーは、専門家が定義したドメイン固有の論理アクション セマンティクスを考慮して、初期状態から目標状態までの一連のアクションを発見できます。
大規模言語モデル (LLM) はそのようなシーケンスを直接生成できますが、推論と状態追跡の制限により、計画が不十分または実行不可能になることがよくあります。
私たちは、シンボリック プランナーと LLM の両方の長所を活用してアクションのセマンティクスを自動的に学習する、言語モデルによるアクションのセマンティクスの予測 (PSALM) を提案します。
PSALM は計画の提案と実行を繰り返し、LLM を使用して計画を部分的に生成し、実行結果に基づいてドメイン固有のアクション セマンティクスを推測します。
PSALM は、目標状態に到達するまで繰り返し更新される、可能なアクション セマンティクスに関する信念を維持します。
7 つの環境での実験では、1 つの目標だけから学習する場合、PSALM は計画の成功率を 36.4% (Claude-3.5 の場合) から 100% に高め、グラウンド トゥルース ドメイン アクション セマンティクスを推論するために以前の作業よりも効率的に環境を探索することを示しています。
要約(オリジナル)
Symbolic planners can discover a sequence of actions from initial to goal states given expert-defined, domain-specific logical action semantics. Large Language Models (LLMs) can directly generate such sequences, but limitations in reasoning and state-tracking often result in plans that are insufficient or unexecutable. We propose Predicting Semantics of Actions with Language Models (PSALM), which automatically learns action semantics by leveraging the strengths of both symbolic planners and LLMs. PSALM repeatedly proposes and executes plans, using the LLM to partially generate plans and to infer domain-specific action semantics based on execution outcomes. PSALM maintains a belief over possible action semantics that is iteratively updated until a goal state is reached. Experiments on 7 environments show that when learning just from one goal, PSALM boosts plan success rate from 36.4% (on Claude-3.5) to 100%, and explores the environment more efficiently than prior work to infer ground truth domain action semantics.
arxiv情報
| 著者 | Wang Zhu,Ishika Singh,Robin Jia,Jesse Thomason |
| 発行日 | 2024-11-08 16:50:24+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google