MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation

要約

我々は、単一の RGB 画像から利用可能な 3D コンピュータ支援設計 (CAD) モデルを使用して物体の 6-DoF 姿勢を決定するシングルショット アプローチを提案します。
MRC-Net と呼ばれる私たちの方法は 2 つの段階で構成されています。
1 つ目はポーズ分類を実行し、分類されたポーズで 3D オブジェクトをレンダリングします。
2 番目のステージでは回帰を実行して、クラス内の詳細な残留ポーズを予測します。
2 つのステージを接続するのは、入力イメージと最初のステージからのレンダリングの間の高レベルと低レベルの対応をキャプチャする新しいマルチスケール残差相関 (MRC) レイヤーです。
MRC-Net は、入力イメージとレンダリングされたイメージのエンベディングを学習するために、両方のステージ間で重みを共有するシャム ネットワークを採用しています。
対称オブジェクトの離散ポーズ クラス ラベルを予測する際のあいまいさを軽減するために、最初の段階でソフト確率ラベルを使用してポーズ クラスを定義します。
当社は、T-LESS、LM-O、YCB-V、ITODD という 4 つの困難な BOP ベンチマーク データセットで、競合するすべての RGB ベースの手法を上回る最先端の精度を実証します。
私たちの方法は非反復的であり、複雑な後処理を必要としません。

要約(オリジナル)

We propose a single-shot approach to determining 6-DoF pose of an object with available 3D computer-aided design (CAD) model from a single RGB image. Our method, dubbed MRC-Net, comprises two stages. The first performs pose classification and renders the 3D object in the classified pose. The second stage performs regression to predict fine-grained residual pose within class. Connecting the two stages is a novel multi-scale residual correlation (MRC) layer that captures high-and-low level correspondences between the input image and rendering from first stage. MRC-Net employs a Siamese network with shared weights between both stages to learn embeddings for input and rendered images. To mitigate ambiguity when predicting discrete pose class labels on symmetric objects, we use soft probabilistic labels to define pose class in the first stage. We demonstrate state-of-the-art accuracy, outperforming all competing RGB-based methods on four challenging BOP benchmark datasets: T-LESS, LM-O, YCB-V, and ITODD. Our method is non-iterative and requires no complex post-processing.

arxiv情報

著者 Yuelong Li,Yafei Mao,Raja Bala,Sunil Hadap
発行日 2024-03-15 17:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク