要約
高品質の単眼のダイナミック3D再構成を達成できる3Dガウスプリミティブの新しい変形表現である階層運動表現(HIMOR)を提示します。
Himorの背後にある洞察は、日常のシーンの動きは、詳細の基礎として機能するより粗い動きに分解できるということです。
ツリー構造を使用して、Himorのノードはさまざまなレベルの動きの詳細を表し、より浅いノードは、時間的な滑らかさとより深いノードのための粗い動きをモデル化し、より細かい動きをキャプチャします。
さらに、モデルでは、いくつかの共有モーションベースを使用して、さまざまなノードのセットの動きを表し、モーションが滑らかでシンプルになる傾向があるという仮定と一致しています。
このモーション表現設計には、ガウス系がより構造化された変形を提供し、一時的な関係の使用を最大化して、単眼の動的3D再構成の挑戦的なタスクに取り組みます。
また、単眼の動的3D再構成を評価するためのピクセルレベルのメトリックが再構築の真の品質を正確に反映できない場合があることを考えると、代替としてより信頼性の高い知覚メトリックを使用することを提案します。
広範な実験は、複雑な動きを備えた挑戦的な単眼動画からの優れた新規ビューの統合を達成する際の方法の有効性を示しています。
要約(オリジナル)
We present Hierarchical Motion Representation (HiMoR), a novel deformation representation for 3D Gaussian primitives capable of achieving high-quality monocular dynamic 3D reconstruction. The insight behind HiMoR is that motions in everyday scenes can be decomposed into coarser motions that serve as the foundation for finer details. Using a tree structure, HiMoR’s nodes represent different levels of motion detail, with shallower nodes modeling coarse motion for temporal smoothness and deeper nodes capturing finer motion. Additionally, our model uses a few shared motion bases to represent motions of different sets of nodes, aligning with the assumption that motion tends to be smooth and simple. This motion representation design provides Gaussians with a more structured deformation, maximizing the use of temporal relationships to tackle the challenging task of monocular dynamic 3D reconstruction. We also propose using a more reliable perceptual metric as an alternative, given that pixel-level metrics for evaluating monocular dynamic 3D reconstruction can sometimes fail to accurately reflect the true quality of reconstruction. Extensive experiments demonstrate our method’s efficacy in achieving superior novel view synthesis from challenging monocular videos with complex motions.
arxiv情報
著者 | Yiming Liang,Tianhan Xu,Yuta Kikuchi |
発行日 | 2025-04-08 16:55:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google