CARTO: Category and Joint Agnostic Reconstruction of ARTiculated Objects

要約

単一のステレオRGB観測から複数の多関節オブジェクトを再構築するための新しいアプローチであるCARTOを紹介します。
暗黙的なオブジェクト中心の表現を使用し、複数のオブジェクト カテゴリに対して単一のジオメトリとアーティキュレーション デコーダーを学習します。
複数のカテゴリでトレーニングを行っているにもかかわらず、当社のデコーダーは、カテゴリーごとに個別に特注のデコーダーをトレーニングする方法に匹敵する再構成精度を達成しています。
ステレオ イメージ エンコーダーと組み合わせて、1 回のフォワード パスで複数の未知のオブジェクトの 3D 形状、6D ポーズ、サイズ、ジョイント タイプ、およびジョイント状態を推測します。
私たちの方法は、2 段階のパイプラインと比較した場合、新しいインスタンスの mAP 3D IOU50 で 20.4% の絶対的な改善を達成します。
推論時間は速く、存在するオブジェクトが 8 つ以下の場合、NVIDIA TITAN XP GPU で 1 HZ で実行できます。
シミュレートされたデータでのみトレーニングされますが、CARTO は現実世界のオブジェクト インスタンスに移行します。
コードと評価データは、http://carto.cs.uni-freiburg.de で入手できます。

要約(オリジナル)

We present CARTO, a novel approach for reconstructing multiple articulated objects from a single stereo RGB observation. We use implicit object-centric representations and learn a single geometry and articulation decoder for multiple object categories. Despite training on multiple categories, our decoder achieves a comparable reconstruction accuracy to methods that train bespoke decoders separately for each category. Combined with our stereo image encoder we infer the 3D shape, 6D pose, size, joint type, and the joint state of multiple unknown objects in a single forward pass. Our method achieves a 20.4% absolute improvement in mAP 3D IOU50 for novel instances when compared to a two-stage pipeline. Inference time is fast and can run on a NVIDIA TITAN XP GPU at 1 HZ for eight or less objects present. While only trained on simulated data, CARTO transfers to real-world object instances. Code and evaluation data is available at: http://carto.cs.uni-freiburg.de

arxiv情報

著者 Nick Heppert,Muhammad Zubair Irshad,Sergey Zakharov,Katherine Liu,Rares Andrei Ambrus,Jeannette Bohg,Abhinav Valada,Thomas Kollar
発行日 2023-03-28 07:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク