UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

要約

ロボット操作に関するこれまでの研究は、基礎となる 3D 動作の制約とアフォーダンスについての限られた理解に基づいています。
これらの課題に対処するために、3D オブジェクト中心の操作とタスクの理解を統一した定式化で統合する、UniAff と呼ばれる包括的なパラダイムを提案します。
具体的には、19 カテゴリからの 900 個の多関節オブジェクトと 12 カテゴリからの 600 個のツールで構成される、操作関連の主要な属性でラベル付けされたデータセットを構築しました。
さらに、MLLM を活用して、アフォーダンス認識や 3D モーション制約に関する推論など、操作タスクのオブジェクト中心の表現を推論します。
シミュレーションと現実世界の設定の両方での包括的な実験により、UniAff がツールや多関節オブジェクトのロボット操作の一般化を大幅に向上させることが示されました。
私たちは、UniAff が将来の統合ロボット操作タスクの一般的なベースラインとして機能することを期待しています。
画像、ビデオ、データセット、コードはプロジェクト Web サイト (https://sites.google.com/view/uni-aff/home) で公開されています。

要約(オリジナル)

Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

arxiv情報

著者 Qiaojun Yu,Siyuan Huang,Xibin Yuan,Zhengkai Jiang,Ce Hao,Xin Li,Haonan Chang,Junbo Wang,Liu Liu,Hongsheng Li,Peng Gao,Cewu Lu
発行日 2024-09-30 17:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク