CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video

要約

私たちの研究の目標は、複雑でダイナミックなシーンの単眼ビデオから高品質の斬新なビューを生成することです。
DynamicNeRF などの従来の方法は、時間とともに変化する動的放射場を活用することで優れたパフォーマンスを示しました。
ただし、これらの方法では、複雑なオブジェクトの動きを正確にモデル化するには限界があり、詳細が不正確でぼやけてレンダリングされる可能性があります。
この制限に対処するために、私たちは、近くのビューを新しい視点に集約する、最近の一般化 NeRF に基づいて構築された新しいアプローチを提案します。
ただし、このような方法は通常、静的なシーンに対してのみ有効です。
この課題を克服するために、時間領域と周波数領域の両方で動作してオブジェクトの動きの特徴を集約するモジュールを導入します。
これにより、フレーム間の関係を学習し、より高品質な画像を生成できるようになります。
私たちの実験では、動的シーン データセットに対する最先端の手法に比べて大幅な改善が見られました。
具体的には、私たちのアプローチは、合成ビューの精度と視覚的品質の両方の点で既存の方法よりも優れています。
私たちのコードは https://github.com/xingy038/CTNeRF で入手できます。

要約(オリジナル)

The goal of our work is to generate high-quality novel views from monocular videos of complex and dynamic scenes. Prior methods, such as DynamicNeRF, have shown impressive performance by leveraging time-varying dynamic radiation fields. However, these methods have limitations when it comes to accurately modeling the motion of complex objects, which can lead to inaccurate and blurry renderings of details. To address this limitation, we propose a novel approach that builds upon a recent generalization NeRF, which aggregates nearby views onto new viewpoints. However, such methods are typically only effective for static scenes. To overcome this challenge, we introduce a module that operates in both the time and frequency domains to aggregate the features of object motion. This allows us to learn the relationship between frames and generate higher-quality images. Our experiments demonstrate significant improvements over state-of-the-art methods on dynamic scene datasets. Specifically, our approach outperforms existing methods in terms of both the accuracy and visual quality of the synthesized views. Our code is available on https://github.com/xingy038/CTNeRF.

arxiv情報

著者 Xingyu Miao,Yang Bai,Haoran Duan,Yawen Huang,Fan Wan,Yang Long,Yefeng Zheng
発行日 2024-06-26 12:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク