要約
単一の RGB 画像から 6D オブジェクトのポーズを推定すると、オクルージョンや乱雑な背景などの課題により、ノイズや不確定性が生じることがよくあります。
一方、拡散モデルは、段階的なノイズ除去を通じて不確定性の高いランダム ノイズから高品質の画像を生成する魅力的なパフォーマンスを示しています。
ノイズ除去機能に触発されて、オブジェクトの姿勢推定におけるノイズと不確定性を処理してパフォーマンスを向上させる新しい拡散ベースのフレームワーク (6D-Diff) を提案します。
私たちのフレームワークでは、正確な 2D-3D 対応を確立するために、2D キーポイント検出を逆拡散 (ノイズ除去) プロセスとして定式化します。
このようなノイズ除去プロセスを容易にするために、混合コーシーベースの前方拡散プロセスを設計し、オブジェクトの特徴に基づいて逆プロセスを条件付けします。
LM-O および YCB-V データセットに関する広範な実験により、フレームワークの有効性が実証されました。
要約(オリジナル)
Estimating the 6D object pose from a single RGB image often involves noise and indeterminacy due to challenges such as occlusions and cluttered backgrounds. Meanwhile, diffusion models have shown appealing performance in generating high-quality images from random noise with high indeterminacy through step-by-step denoising. Inspired by their denoising capability, we propose a novel diffusion-based framework (6D-Diff) to handle the noise and indeterminacy in object pose estimation for better performance. In our framework, to establish accurate 2D-3D correspondence, we formulate 2D keypoints detection as a reverse diffusion (denoising) process. To facilitate such a denoising process, we design a Mixture-of-Cauchy-based forward diffusion process and condition the reverse process on the object features. Extensive experiments on the LM-O and YCB-V datasets demonstrate the effectiveness of our framework.
arxiv情報
著者 | Li Xu,Haoxuan Qu,Yujun Cai,Jun Liu |
発行日 | 2024-01-02 11:29:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google