Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking

要約

点群シーケンスから動的表面再構築のための 4D 拡散モデルである Motion2VecSets を紹介します。
既存の最先端の手法は、神経フィールド表現を使用して非剛体オブジェクトを再構成することに成功していることを実証していますが、従来のフィードフォワード ネットワークは、ノイズの多い、部分的な、またはまばらな点群からのあいまいな観測という課題に直面しています。
これらの課題に対処するために、圧縮された潜在表現の反復的なノイズ除去プロセスを通じて非剛体オブジェクトの形状と動きの分布を明示的に学習する拡散モデルを導入します。
拡散ベースの事前分布により、あいまいな入力を処理する場合に、より妥当性のある確率的な再構成が可能になります。
グローバル レイテントを使用する代わりに、レイテント ベクトル セットを使用して 4D ダイナミクスをパラメータ化します。
この新しい 4D 表現により、局所的な表面形状と変形パターンを学習できるようになり、より正確な非線形モーション キャプチャが可能になり、目に見えないモーションやアイデンティティに対する一般化可能性が大幅に向上します。
より時間的にコヒーレントなオブジェクト追跡のために、変形潜在セットのノイズを同期的に除去し、複数のフレームにわたって情報を交換します。
計算オーバーヘッドを回避するために、空間領域と時間領域に沿って変形潜在を交互に集約する、インターリーブされた空間と時間のアテンション ブロックを設計します。
最先端の手法との広範な比較により、さまざまな不完全な観察からの 4D 再構成における Motion2VecSet の優位性が実証され、特に疎な点群から見えない個人を再構成する際に、CaDex と比較して Intersection over Union (IoU) で 19% の向上を達成しました。
DeformingThings4D-Animals データセット上で。
詳細については、https://vveicao.github.io/projects/Motion2VecSets/ をご覧ください。

要約(オリジナル)

We introduce Motion2VecSets, a 4D diffusion model for dynamic surface reconstruction from point cloud sequences. While existing state-of-the-art methods have demonstrated success in reconstructing non-rigid objects using neural field representations, conventional feed-forward networks encounter challenges with ambiguous observations from noisy, partial, or sparse point clouds. To address these challenges, we introduce a diffusion model that explicitly learns the shape and motion distribution of non-rigid objects through an iterative denoising process of compressed latent representations. The diffusion-based prior enables more plausible and probabilistic reconstructions when handling ambiguous inputs. We parameterize 4D dynamics with latent vector sets instead of using a global latent. This novel 4D representation allows us to learn local surface shape and deformation patterns, leading to more accurate non-linear motion capture and significantly improving generalizability to unseen motions and identities. For more temporal-coherent object tracking, we synchronously denoise deformation latent sets and exchange information across multiple frames. To avoid the computational overhead, we design an interleaved space and time attention block to alternately aggregate deformation latents along spatial and temporal domains. Extensive comparisons against the state-of-the-art methods demonstrate the superiority of our Motion2VecSets in 4D reconstruction from various imperfect observations, notably achieving a 19% improvement in Intersection over Union (IoU) compared to CaDex for reconstructing unseen individuals from sparse point clouds on the DeformingThings4D-Animals dataset. More detailed information can be found at https://vveicao.github.io/projects/Motion2VecSets/.

arxiv情報

著者 Wei Cao,Chang Luo,Biao Zhang,Matthias Nießner,Jiapeng Tang
発行日 2024-01-12 15:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク