AutoGPT+P: Affordance-based Task Planning with Large Language Models

要約

タスク計画における最近の進歩では、大規模言語モデル (LLM) を活用して、そのようなモデルを古典的な計画アルゴリズムと組み合わせて、推論機能における固有の制限に対処することで一般化可能性を向上させています。
ただし、これらのアプローチは、タスク計画の問題の初期状態を動的に取得するという課題に直面しています。
この問題を軽減するために、アフォーダンスベースのシーン表現と計画システムを組み合わせたシステムである AutoGPT+P を提案します。
アフォーダンスには、環境およびその中に存在するオブジェクトに対するエージェントの行動の可能性が含まれます。
したがって、アフォーダンスベースのシーン表現から計画領域を導出することで、任意のオブジェクトを使用した記号的な計画が可能になります。
AutoGPT+P は、この表現を利用して、ユーザーが自然言語で指定したタスクの計画を導き出し、実行します。
AutoGPT+P は、閉じた世界の仮定の下で計画タスクを解決することに加えて、不完全な情報を含む計画も処理できます。
たとえば、シーンを探索したり、代替案を提案したり、部分的な計画を提供したりすることで、オブジェクトが欠落しているタスクを実行します。
アフォーダンス ベースのシーン表現は、ChatGPT を使用してオブジェクト検出と自動生成されたオブジェクト アフォーダンス マッピングを組み合わせたものです。
コア計画ツールは、意味論的および構文上のエラーを自動的に修正することにより、既存の作業を拡張します。
私たちのアプローチは 98% の成功率を達成し、SayCan 命令セット上の現在の最先端の LLM ベースの計画手法 SayCan の成功率 81% を上回ります。
さらに、オブジェクトが欠落している広範囲の複雑なタスクをカバーする 150 のシナリオを使用して、新しく作成したデータセットでアプローチを評価し、データセットで 79% の成功率を達成しました。
データセットとコードは、https://git.h2t.iar.kit.edu/birr/autogpt-p-standalone で公開されています。

要約(オリジナル)

Recent advances in task planning leverage Large Language Models (LLMs) to improve generalizability by combining such models with classical planning algorithms to address their inherent limitations in reasoning capabilities. However, these approaches face the challenge of dynamically capturing the initial state of the task planning problem. To alleviate this issue, we propose AutoGPT+P, a system that combines an affordance-based scene representation with a planning system. Affordances encompass the action possibilities of an agent on the environment and objects present in it. Thus, deriving the planning domain from an affordance-based scene representation allows symbolic planning with arbitrary objects. AutoGPT+P leverages this representation to derive and execute a plan for a task specified by the user in natural language. In addition to solving planning tasks under a closed-world assumption, AutoGPT+P can also handle planning with incomplete information, e. g., tasks with missing objects by exploring the scene, suggesting alternatives, or providing a partial plan. The affordance-based scene representation combines object detection with an automatically generated object-affordance-mapping using ChatGPT. The core planning tool extends existing work by automatically correcting semantic and syntactic errors. Our approach achieves a success rate of 98%, surpassing the current 81% success rate of the current state-of-the-art LLM-based planning method SayCan on the SayCan instruction set. Furthermore, we evaluated our approach on our newly created dataset with 150 scenarios covering a wide range of complex tasks with missing objects, achieving a success rate of 79% on our dataset. The dataset and the code are publicly available at https://git.h2t.iar.kit.edu/birr/autogpt-p-standalone.

arxiv情報

著者 Timo Birr,Christoph Pohl,Abdelrahman Younes,Tamim Asfour
発行日 2024-07-23 14:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2 パーマリンク