Text2Motion: From Natural Language Instructions to Feasible Plans

要約

我々は、ロボットが長期的な推論を必要とする逐次操作タスクを解決できるようにする、言語ベースの計画フレームワークである Text2Motion を提案します。
自然言語命令が与えられると、私たちのフレームワークはタスクレベルと動作レベルの両方の計画を構築し、推定された記号目標に到達することが検証されます。
Text2Motion は、スキルのライブラリの Q 関数にエンコードされた実現可能性ヒューリスティックを使用して、大規模言語モデルによるタスク計画をガイドします。
以前の言語ベースのプランナーは個々のスキルの実現可能性のみを考慮していましたが、Text2Motion は、検索中に幾何学的実現可能性計画を実行することにより、スキル シーケンスにわたる幾何学的依存関係を積極的に解決します。
私たちは、長期的な推論、抽象的な目標の解釈、部分的なアフォーダンス認識の処理を必要とする一連の問題に関してメソッドを評価します。
私たちの実験では、Text2Motion がこれらの困難な問題を 82% の成功率で解決できるのに対し、従来の最先端の言語ベースの計画手法では 13% しか達成できないことが示されました。
したがって、Text2Motion は、スキル間の幾何学的依存関係を持つ意味的に多様な逐次操作タスクに有望な一般化特性を提供します。

要約(オリジナル)

We propose Text2Motion, a language-based planning framework enabling robots to solve sequential manipulation tasks that require long-horizon reasoning. Given a natural language instruction, our framework constructs both a task- and motion-level plan that is verified to reach inferred symbolic goals. Text2Motion uses feasibility heuristics encoded in Q-functions of a library of skills to guide task planning with Large Language Models. Whereas previous language-based planners only consider the feasibility of individual skills, Text2Motion actively resolves geometric dependencies spanning skill sequences by performing geometric feasibility planning during its search. We evaluate our method on a suite of problems that require long-horizon reasoning, interpretation of abstract goals, and handling of partial affordance perception. Our experiments show that Text2Motion can solve these challenging problems with a success rate of 82%, while prior state-of-the-art language-based planning methods only achieve 13%. Text2Motion thus provides promising generalization characteristics to semantically diverse sequential manipulation tasks with geometric dependencies between skills.

arxiv情報

著者 Kevin Lin,Christopher Agia,Toki Migimatsu,Marco Pavone,Jeannette Bohg
発行日 2023-11-18 21:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク