要約
家庭のシナリオで多関節オブジェクトを効果的に操作することは、一般的な身体化人工知能の実現に向けた重要なステップです。
3D ビジョンの主流の研究は、主に奥行き知覚と姿勢検出による操作に焦点を当ててきました。
ただし、現実の環境では、これらの方法は、透明な蓋や反射ハンドルなどの不完全な奥行き認識による課題に直面することがよくあります。
さらに、それらは一般に、柔軟で順応性のある操作に必要なパーツベースの相互作用の多様性に欠けています。
これらの課題に対処するために、私たちは、写真のようにリアルなマテリアルのランダム化と、パーツ指向のシーンレベルの実用的なインタラクションポーズの詳細なアノテーションの両方を特徴とする、多関節オブジェクト操作のための大規模なパーツ中心のデータセットを導入しました。
私たちは、深度推定とインタラクションポーズ予測のためのいくつかの最先端の方法とデータセットを統合することによって、データセットの有効性を評価しました。
さらに、一般化可能な多関節オブジェクト操作に対して優れた堅牢なパフォーマンスを提供する新しいモジュール式フレームワークを提案しました。
私たちの広範な実験により、私たちのデータセットがシミュレーションと現実世界のシナリオの両方で奥行き知覚と実用的なインタラクションポーズ予測のパフォーマンスを大幅に向上させることが実証されました。
要約(オリジナル)
Effectively manipulating articulated objects in household scenarios is a crucial step toward achieving general embodied artificial intelligence. Mainstream research in 3D vision has primarily focused on manipulation through depth perception and pose detection. However, in real-world environments, these methods often face challenges due to imperfect depth perception, such as with transparent lids and reflective handles. Moreover, they generally lack the diversity in part-based interactions required for flexible and adaptable manipulation. To address these challenges, we introduced a large-scale part-centric dataset for articulated object manipulation that features both photo-realistic material randomizations and detailed annotations of part-oriented, scene-level actionable interaction poses. We evaluated the effectiveness of our dataset by integrating it with several state-of-the-art methods for depth estimation and interaction pose prediction. Additionally, we proposed a novel modular framework that delivers superior and robust performance for generalizable articulated object manipulation. Our extensive experiments demonstrate that our dataset significantly improves the performance of depth perception and actionable interaction pose prediction in both simulation and real-world scenarios.
arxiv情報
著者 | Wenbo Cui,Chengyang Zhao,Songlin Wei,Jiazhao Zhang,Haoran Geng,Yaran Chen,He Wang |
発行日 | 2024-11-27 12:11:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google