Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images


私たちは、さまざまなマテリアル特性 (拡散、鏡面、透明、混合) を持つ日常のオブジェクトを操作するための 3D オブジェクト理解タスクを研究します。
既存の単眼法および RGB-D 法では、深さの測定値が欠落しているか不正確であるため、スケールが曖昧になります。
カテゴリレベルのオブジェクト検出、姿勢推定、およびステレオ画像からの再構成のための 1 段階のアプローチである CODERS を紹介します。
私たちのパイプラインのベースは、ステレオ画像の特徴と 3D 位置情報を組み合わせる暗黙的なステレオ マッチング モジュールです。
この提示されたモジュールと次の変換デコーダ アーキテクチャを連結すると、ロボット操作に必要な複数のタスクのエンドツーエンドの学習が可能になります。
私たちのアプローチは、公開 TOD データセットにおける競合するすべての手法よりも大幅に優れています。
さらに、シミュレートされたデータでトレーニングされた CODERS は、現実世界のロボット操作実験で目に見えないカテゴリレベルのオブジェクト インスタンスまで適切に一般化します。
データセット、コード、デモはプロジェクト ページから入手できます。


We study the 3D object understanding task for manipulating everyday objects with different material properties (diffuse, specular, transparent and mixed). Existing monocular and RGB-D methods suffer from scale ambiguity due to missing or imprecise depth measurements. We present CODERS, a one-stage approach for Category-level Object Detection, pose Estimation and Reconstruction from Stereo images. The base of our pipeline is an implicit stereo matching module that combines stereo image features with 3D position information. Concatenating this presented module and the following transform-decoder architecture leads to end-to-end learning of multiple tasks required by robot manipulation. Our approach significantly outperforms all competing methods in the public TOD dataset. Furthermore, trained on simulated data, CODERS generalize well to unseen category-level object instances in real-world robot manipulation experiments. Our dataset, code, and demos will be available on our project page.


著者 Chuanrui Zhang,Yonggen Ling,Minglei Lu,Minghan Qin,Haoqian Wang
発行日 2024-07-09 15:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク