要約
最近、ビデオからの動的な3Dオブジェクトの生成が印象的な結果を示しています。
既存の方法は、フレーム内の情報全体を使用してガウスを直接最適化します。
ただし、特に静的領域が大きな割合を占める場合、動的領域にフレーム内の静的領域が織り込まれている場合、既存の方法は動的領域の情報を見落とし、静的領域で過剰に適合する傾向があります。
これにより、ぼやけたテクスチャで結果が生成されます。
動的表現を強化するための動的な静的特徴を分離すると、この問題を軽減できると考えています。
したがって、動的な静的機能デカップリングモジュール(DSFD)を提案します。
時間軸に沿って、基準フレームの特徴と比較して大きな違いをダイナミックな特徴として持つ現在のフレーム機能の一部を考慮しています。
逆に、残りの部分は静的な特徴です。
次に、動的な機能と現在のフレーム機能によって駆動される分離された機能を取得します。
さらに、異なる視点から分離された特徴の動的表現をさらに強化し、正確なモーション予測を確保するために、時間空間類似性融合モジュール(TSSF)を設計します。
空間軸に沿って、動的領域の同様の情報を適応的に選択します。
上記のヒンジで、新しいアプローチ、DS4Dを構築します。
実験結果を確認する方法は、ビデオから4Dで最先端の(SOTA)結果を達成します。
さらに、実際のシナリオデータセットでの実験は、4Dシーンでの有効性を示しています。
私たちのコードは公開されます。
要約(オリジナル)
Recently, the generation of dynamic 3D objects from a video has shown impressive results. Existing methods directly optimize Gaussians using whole information in frames. However, when dynamic regions are interwoven with static regions within frames, particularly if the static regions account for a large proportion, existing methods often overlook information in dynamic regions and are prone to overfitting on static regions. This leads to producing results with blurry textures. We consider that decoupling dynamic-static features to enhance dynamic representations can alleviate this issue. Thus, we propose a dynamic-static feature decoupling module (DSFD). Along temporal axes, it regards the portions of current frame features that possess significant differences relative to reference frame features as dynamic features. Conversely, the remaining parts are the static features. Then, we acquire decoupled features driven by dynamic features and current frame features. Moreover, to further enhance the dynamic representation of decoupled features from different viewpoints and ensure accurate motion prediction, we design a temporal-spatial similarity fusion module (TSSF). Along spatial axes, it adaptively selects a similar information of dynamic regions. Hinging on the above, we construct a novel approach, DS4D. Experimental results verify our method achieves state-of-the-art (SOTA) results in video-to-4D. In addition, the experiments on a real-world scenario dataset demonstrate its effectiveness on the 4D scene. Our code will be publicly available.
arxiv情報
著者 | Liying Yang,Chen Liu,Zhenwei Zhu,Ajian Liu,Hui Ma,Jian Nong,Yanyan Liang |
発行日 | 2025-02-12 13:08:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google