Improving 2D-3D Dense Correspondences with Diffusion Models for 6D Object Pose Estimation

要約

RGB 画像と 3D 空間の間の 2D-3D 対応関係を推定することは、6D オブジェクトの姿勢推定における基本的な問題です。
最近の姿勢推定器は、密な対応マップとポイントツーポイント アルゴリズムを使用してオブジェクトの姿勢を推定します。
姿勢推定の精度は、密な対応マップの品質と、オクルージョン、クラッタ、および困難な材料特性に耐える能力に大きく依存します。
現在、密な対応マップは、GAN、オートエンコーダー、または直接回帰モデルに基づく画像間変換モデルを使用して推定されています。
ただし、画像から画像への変換における最近の進歩により、ベンチマーク データセットで評価する場合には拡散モデルが優れた選択肢となるようになりました。
この研究では、6D オブジェクトの姿勢推定の下流タスク用に、GAN と拡散モデルに基づく画像間変換ネットワークを比較します。
私たちの結果は、拡散ベースの画像間変換モデルが GAN よりも優れていることを示しており、6D 物体姿勢推定モデルのさらなる改善の可能性を明らかにしています。

要約(オリジナル)

Estimating 2D-3D correspondences between RGB images and 3D space is a fundamental problem in 6D object pose estimation. Recent pose estimators use dense correspondence maps and Point-to-Point algorithms to estimate object poses. The accuracy of pose estimation depends heavily on the quality of the dense correspondence maps and their ability to withstand occlusion, clutter, and challenging material properties. Currently, dense correspondence maps are estimated using image-to-image translation models based on GANs, Autoencoders, or direct regression models. However, recent advancements in image-to-image translation have led to diffusion models being the superior choice when evaluated on benchmarking datasets. In this study, we compare image-to-image translation networks based on GANs and diffusion models for the downstream task of 6D object pose estimation. Our results demonstrate that the diffusion-based image-to-image translation model outperforms the GAN, revealing potential for further improvements in 6D object pose estimation models.

arxiv情報

著者 Peter Hönig,Stefan Thalhammer,Markus Vincze
発行日 2024-02-09 14:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク