Learning Instruction-Guided Manipulation Affordance via Large Models for Embodied Robotic Tasks

要約

私たちは、言語命令に基づいて身体化されたロボットが対象物体を操作する、言語命令に基づくロボット操作のタスクを研究します。
これまでの研究では、対象物体の予測操作領域は言語命令の指定によって変化しないのが一般的であり、言語認識と操作予測が分離していることを意味する。
ただし、人間の行動パターンでは、同じオブジェクトの操作領域が言語命令ごとに変わります。
この論文では、大規模なデータセットで事前トレーニングされた視覚および言語エンコーダーからの強力な事前分布を利用して、命令誘導型ロボット操作タスクのアフォーダンス マップを予測するための命令誘導型アフォーダンス ネット (IGANet) を提案します。
私たちは、モデルのトレーニング用に大量のデータを自動的に生成できる、Vison-Language-Models (VLM) ベースのデータ拡張パイプラインを開発しています。
さらに、大言語モデル (LLM) の助けを借りて、アクションを効果的に実行して、命令で定義されたタスクを完了できます。
一連の実世界での実験により、私たちの方法が生成されたデータでより優れたパフォーマンスを達成できることが明らかになりました。
さらに、私たちのモデルは、目に見えないオブジェクトや言語命令を含むシナリオに対してより適切に一般化できます。

要約(オリジナル)

We study the task of language instruction-guided robotic manipulation, in which an embodied robot is supposed to manipulate the target objects based on the language instructions. In previous studies, the predicted manipulation regions of the target object typically do not change with specification from the language instructions, which means that the language perception and manipulation prediction are separate. However, in human behavioral patterns, the manipulation regions of the same object will change for different language instructions. In this paper, we propose Instruction-Guided Affordance Net (IGANet) for predicting affordance maps of instruction-guided robotic manipulation tasks by utilizing powerful priors from vision and language encoders pre-trained on large-scale datasets. We develop a Vison-Language-Models(VLMs)-based data augmentation pipeline, which can generate a large amount of data automatically for model training. Besides, with the help of Large-Language-Models(LLMs), actions can be effectively executed to finish the tasks defined by instructions. A series of real-world experiments revealed that our method can achieve better performance with generated data. Moreover, our model can generalize better to scenarios with unseen objects and language instructions.

arxiv情報

著者 Dayou Li,Chenkun Zhao,Shuo Yang,Lin Ma,Yibin Li,Wei Zhang
発行日 2024-08-20 08:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク