Text2Motion: From Natural Language Instructions to Feasible Plans

要約

Text2Motion は、ロボットが長期的な推論を必要とする一連の操作タスクを解決できるようにする言語ベースの計画フレームワークです。
自然言語の命令が与えられると、私たちのフレームワークは、推測された象徴的な目標に到達することが検証されたタスク レベルとポリシー レベルの両方の計画を構築します。
Text2Motion は、学習した Q 関数にエンコードされたスキル実現可能性ヒューリスティックを使用して、Large Language Models でのタスク計画をガイドします。
以前の言語ベースのプランナーは個々のスキルの実現可能性のみを考慮していましたが、Text2Motion は検索中にポリシー シーケンスの最適化を実行することで、スキル シーケンスにまたがる幾何学的な依存関係を積極的に解決します。
長期的な推論、抽象的な目標の解釈、および部分的なアフォーダンス知覚の処理を必要とする一連の問題で、私たちの方法を評価します。
私たちの実験では、Text2Motion がこれらの困難な問題を 64% の成功率で解決できることを示していますが、これまでの最先端の言語ベースの計画方法では 13% しか達成できませんでした。
このように、Text2Motion は、スキル間の幾何学的依存関係を持つ意味的に多様な順次操作タスクに有望な一般化特性を提供します。

要約(オリジナル)

We propose Text2Motion, a language-based planning framework enabling robots to solve sequential manipulation tasks that require long-horizon reasoning. Given a natural language instruction, our framework constructs both a task- and policy-level plan that is verified to reach inferred symbolic goals. Text2Motion uses skill feasibility heuristics encoded in learned Q-functions to guide task planning with Large Language Models. Whereas previous language-based planners only consider the feasibility of individual skills, Text2Motion actively resolves geometric dependencies spanning skill sequences by performing policy sequence optimization during its search. We evaluate our method on a suite of problems that require long-horizon reasoning, interpretation of abstract goals, and handling of partial affordance perception. Our experiments show that Text2Motion can solve these challenging problems with a success rate of 64%, while prior state-of-the-art language-based planning methods only achieve 13%. Text2Motion thus provides promising generalization characteristics to semantically diverse sequential manipulation tasks with geometric dependencies between skills.

arxiv情報

著者 Kevin Lin,Christopher Agia,Toki Migimatsu,Marco Pavone,Jeannette Bohg
発行日 2023-03-21 19:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク