SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation

要約

この論文では、実世界のシナリオにおける 6D オブジェクトの姿勢推定のための SE(3) 拡散モデルベースの点群登録フレームワークを紹介します。
私たちのアプローチでは、3D レジストレーション タスクをノイズ除去拡散プロセスとして定式化し、ソース点群の姿勢を段階的に調整してモデル点群との正確な位置合わせを取得します。
私たちのフレームワークのトレーニングには、SE(3) 拡散プロセスと SE(3) 逆プロセスという 2 つの操作が含まれます。
SE(3) 拡散プロセスは、継続的にノイズを注入する (摂動変換) ことによって、点群のペアの最適な剛体変換を徐々に摂動させます。
対照的に、SE(3) 逆プロセスは、ノイズの多い変換を段階的に調整し、正確な姿勢推定のための最適な変換に近づけるノイズ除去ネットワークの学習に焦点を当てています。
線形ユークリッド空間で使用される標準の拡散モデルとは異なり、私たちの拡散モデルは SE(3) 多様体上で動作します。
これには、SE(3) に関連付けられた線形リー代数 $\mathfrak{se}(3)$ を利用して、拡散および逆プロセス中の変換遷移を制約する必要があります。
さらに、ノイズ除去ネットワークを効果的にトレーニングするために、モデル学習の最適化目標として登録固有の変分下限を導出します。
さらに、私たちのノイズ除去ネットワークが代理登録モデルを使用して構築できることを示し、私たちのアプローチをさまざまなディープ登録ネットワークに適用できるようにします。
広範な実験により、私たちの拡散登録フレームワークが現実世界の TUD-L、LINEMOD、および Occluded-LINEMOD データセット上で優れた姿勢推定パフォーマンスを発揮することが実証されました。

要約(オリジナル)

In this paper, we introduce an SE(3) diffusion model-based point cloud registration framework for 6D object pose estimation in real-world scenarios. Our approach formulates the 3D registration task as a denoising diffusion process, which progressively refines the pose of the source point cloud to obtain a precise alignment with the model point cloud. Training our framework involves two operations: An SE(3) diffusion process and an SE(3) reverse process. The SE(3) diffusion process gradually perturbs the optimal rigid transformation of a pair of point clouds by continuously injecting noise (perturbation transformation). By contrast, the SE(3) reverse process focuses on learning a denoising network that refines the noisy transformation step-by-step, bringing it closer to the optimal transformation for accurate pose estimation. Unlike standard diffusion models used in linear Euclidean spaces, our diffusion model operates on the SE(3) manifold. This requires exploiting the linear Lie algebra $\mathfrak{se}(3)$ associated with SE(3) to constrain the transformation transitions during the diffusion and reverse processes. Additionally, to effectively train our denoising network, we derive a registration-specific variational lower bound as the optimization objective for model learning. Furthermore, we show that our denoising network can be constructed with a surrogate registration model, making our approach applicable to different deep registration networks. Extensive experiments demonstrate that our diffusion registration framework presents outstanding pose estimation performance on the real-world TUD-L, LINEMOD, and Occluded-LINEMOD datasets.

arxiv情報

著者 Haobo Jiang,Mathieu Salzmann,Zheng Dang,Jin Xie,Jian Yang
発行日 2023-10-26 12:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク