要約
動的なシーンのための新しいビューの合成は、コンピューター ビジョンとグラフィックスにおいて依然として困難な問題です。
最近、ガウス スプラッティングは、静的なシーンを表現し、高品質でリアルタイムの新規ビュー合成を可能にする堅牢な技術として登場しました。
この技術に基づいて、動的シーンの動きと外観をそれぞれ疎な制御点と密なガウス分布に明示的に分解する新しい表現を提案します。
私たちの重要なアイデアは、ガウスよりも数が大幅に少ないまばらな制御点を使用して、コンパクトな 6 DoF 変換ベースを学習することです。これは、学習された補間重みを通じてローカルに補間され、3D ガウスのモーション フィールドを生成できます。
変形 MLP を使用して、各コントロール ポイントの時変 6 DoF 変換を予測します。これにより、学習の複雑さが軽減され、学習能力が向上し、時間的および空間的にコヒーレントな運動パターンの取得が容易になります。
次に、3D ガウス、コントロール ポイントの標準空間位置、および変形 MLP を共同学習して、3D シーンの外観、ジオメトリ、ダイナミクスを再構築します。
学習中、制御ポイントの位置と数は、さまざまな領域でのさまざまなモーションの複雑さに対応するために適応的に調整され、学習されたモーションの空間的連続性と局所的な剛性を強化するために、可能な限り剛性の原則に従った ARAP 損失が開発されます。
最後に、明示的なまばらなモーション表現と外観からのその分解のおかげで、私たちの方法では、高忠実度の外観を維持しながら、ユーザー制御のモーション編集が可能になります。
広範な実験により、私たちのアプローチは、高いレンダリング速度で新しいビュー合成に関して既存のアプローチを上回り、新しい外観を維持したモーション編集アプリケーションが可能になることが実証されました。
プロジェクトページ: https://yihua7.github.io/SC-GS-web/
要約(オリジナル)
Novel view synthesis for dynamic scenes is still a challenging problem in computer vision and graphics. Recently, Gaussian splatting has emerged as a robust technique to represent static scenes and enable high-quality and real-time novel view synthesis. Building upon this technique, we propose a new representation that explicitly decomposes the motion and appearance of dynamic scenes into sparse control points and dense Gaussians, respectively. Our key idea is to use sparse control points, significantly fewer in number than the Gaussians, to learn compact 6 DoF transformation bases, which can be locally interpolated through learned interpolation weights to yield the motion field of 3D Gaussians. We employ a deformation MLP to predict time-varying 6 DoF transformations for each control point, which reduces learning complexities, enhances learning abilities, and facilitates obtaining temporal and spatial coherent motion patterns. Then, we jointly learn the 3D Gaussians, the canonical space locations of control points, and the deformation MLP to reconstruct the appearance, geometry, and dynamics of 3D scenes. During learning, the location and number of control points are adaptively adjusted to accommodate varying motion complexities in different regions, and an ARAP loss following the principle of as rigid as possible is developed to enforce spatial continuity and local rigidity of learned motions. Finally, thanks to the explicit sparse motion representation and its decomposition from appearance, our method can enable user-controlled motion editing while retaining high-fidelity appearances. Extensive experiments demonstrate that our approach outperforms existing approaches on novel view synthesis with a high rendering speed and enables novel appearance-preserved motion editing applications. Project page: https://yihua7.github.io/SC-GS-web/
arxiv情報
| 著者 | Yi-Hua Huang,Yang-Tian Sun,Ziyi Yang,Xiaoyang Lyu,Yan-Pei Cao,Xiaojuan Qi |
| 発行日 | 2023-12-29 12:43:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google