要約
動的な単眼ビデオからの動的なビュー合成の課題、つまり、移動するカメラによってキャプチャされた動的なシーンの単眼ビデオを与えられて、自由な視点のための新しいビューを合成するという課題は、主に、限られた 2D フレームを使用してシーンの動的なオブジェクトを正確にモデル化することにあります。
タイムスタンプと視点が異なります。
既存の方法では通常、ネットワークを監視するために既製の方法で前処理された 2D オプティカル フローおよび深度マップが必要となるため、前処理された監視の不正確さと、2D 情報を 3D に変換する際の曖昧さという問題が生じます。
この論文では、教師なしの方法でこの課題に取り組みます。
具体的には、動的オブジェクトの動きをオブジェクトの動きとカメラの動きに分離し、それぞれ提案された教師なし表面の一貫性とパッチベースのマルチビュー制約によって正規化します。
前者は、移動するオブジェクトの 3D 幾何学的表面が時間の経過とともに一貫性を持つように強制するのに対し、後者は、異なる視点間で一貫性があるように外観を規則化します。
このようなきめ細かいモーションの定式化により、ネットワークの学習の困難さが軽減され、その結果、追加の監視を必要とする既存の方法よりも高品質の新しいビューだけでなく、より正確なシーン フローと奥行きも生成できるようになります。
要約(オリジナル)
The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by off-the-shelf methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision.
arxiv情報
著者 | Meng You,Junhui Hou |
発行日 | 2023-08-14 14:02:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google