Multimodal Contextualized Plan Prediction for Embodied Task Completion

要約

タスクプランニングは、ロボットがより複雑なタスクを実行するために細かいスキルを構成することを可能にする、従来のロボティクスシステムの重要な要素である。最近の研究では、自然言語を実行可能なアクションに変換するシステムを構築しており、物理的なロボットによって直接実行されることが期待される低レベルのアクションシーケンスを直接予測することに焦点を当てている。本研究では、自然言語から高水準の計画を予測する技術は、物理的なロボットシステムにも応用できると考え、そのような具象タスク完了データセットであるTEAChの高水準計画表現を予測することに焦点を当てる。我々は、マルチモーダルコンテキストを用いることで、より良い計画を予測できること、また、計画予測モジュールと計画実行モジュールは互いに依存している可能性が高く、したがって、これらを完全に切り離すことは理想的ではないかもしれないことを実証する。さらに、計画予測モデルの改善範囲を定量化するために、オラクル計画の実行をベンチマークする。

要約(オリジナル)

Task planning is an important component of traditional robotics systems enabling robots to compose fine grained skills to perform more complex tasks. Recent work building systems for translating natural language to executable actions for task completion in simulated embodied agents is focused on directly predicting low level action sequences that would be expected to be directly executable by a physical robot. In this work, we instead focus on predicting a higher level plan representation for one such embodied task completion dataset – TEACh, under the assumption that techniques for high-level plan prediction from natural language are expected to be more transferable to physical robot systems. We demonstrate that better plans can be predicted using multimodal context, and that plan prediction and plan execution modules are likely dependent on each other and hence it may not be ideal to fully decouple them. Further, we benchmark execution of oracle plans to quantify the scope for improvement in plan prediction models.

arxiv情報

著者 Mert İnan,Aishwarya Padmakumar,Spandana Gella,Patrick Lange,Dilek Hakkani-Tur
発行日 2023-05-10 22:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO パーマリンク