D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction

要約

単一の RGB 画像から手持ちのオブジェクトを再構築することは、コンピュータ ビジョンにおいて困難な作業です。
決定論的モデリング パラダイムを利用した従来の研究とは対照的に、この問題の確率的性質を説明するために点群ノイズ除去拡散モデルを採用しました。
コアでは、単眼手持ち物体再構成 (D-SCo) のための重心固定デュアルストリーム条件付き拡散を導入し、2 つの主要な課題に取り組みます。
まず、オブジェクトの重心の逸脱を回避するために、新しい手動拘束の重心固定パラダイムを利用し、拡散および逆プロセスの安定性と特徴投影の精度を向上させます。
次に、デュアルストリーム デノイザーを導入して、新しい統一された手オブジェクト セマンティック埋め込みを使用して手オブジェクトの相互作用を意味論的および幾何学的にモデル化し、オブジェクトの手で遮られた領域の再構成パフォーマンスを強化します。
合成 ObMan データセットと 3 つの現実世界データセット HO3D、MOW、DexYCB での実験により、私たちのアプローチが他のすべての最先端の手法を上回ることができることが実証されました。
コードが公開されます。

要約(オリジナル)

Reconstructing hand-held objects from a single RGB image is a challenging task in computer vision. In contrast to prior works that utilize deterministic modeling paradigms, we employ a point cloud denoising diffusion model to account for the probabilistic nature of this problem. In the core, we introduce centroid-fixed dual-stream conditional diffusion for monocular hand-held object reconstruction (D-SCo), tackling two predominant challenges. First, to avoid the object centroid from deviating, we utilize a novel hand-constrained centroid fixing paradigm, enhancing the stability of diffusion and reverse processes and the precision of feature projection. Second, we introduce a dual-stream denoiser to semantically and geometrically model hand-object interactions with a novel unified hand-object semantic embedding, enhancing the reconstruction performance of the hand-occluded region of the object. Experiments on the synthetic ObMan dataset and three real-world datasets HO3D, MOW and DexYCB demonstrate that our approach can surpass all other state-of-the-art methods. Codes will be released.

arxiv情報

著者 Bowen Fu,Gu Wang,Chenyangguang Zhang,Yan Di,Ziqin Huang,Zhiying Leng,Fabian Manhardt,Xiangyang Ji,Federico Tombari
発行日 2024-03-18 11:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク