Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis

要約

私たちは、変形可能なシーンの単眼ビデオから具体化されたビューを合成するタスクを探索します。
ペットと対話する人々の 1 分間の RGBD ビデオを考慮して、俳優のシーン内の動きから導き出された新しいカメラの軌跡からシーンをレンダリングします。(1) ターゲットの俳優の視点をシミュレートする自己中心的なカメラ、および (2)
) 俳優を追跡する三人称カメラ。
このようなシステムを構築するには、すべてのアクターのルートボディと関節運動、および自由視点合成をサポートするシーン表現を再構築する必要があります。
ビデオが長いほど、さまざまな視点からシーンがキャプチャされる可能性が高くなります (再構成が容易になります) が、より大きなモーションが含まれる可能性も高くなります (再構成が複雑になります)。
これらの課題に対処するために、長い単眼 RGBD ビデオからフォトリアリスティックに変形可能なシーンを再構築する最初の方法である Total-Recon を紹介します。
重要なのは、長いビデオに拡張するために、私たちの方法はシーンを背景とオブジェクトに階層的に分解し、そのモーションが慎重に初期化されたルートボ​​ディのモーションとローカルのアーティキュレーションに分解されることです。
このような「実際の」再構成とビュー合成を定量化するために、11 の困難なビデオの特殊なステレオ RGBD キャプチャ リグからグラウンドトゥルース データを収集し、従来の方法を大幅に上回りました。
私たちのコード、モデル、データは https://andrewsonga.github.io/totalrecon にあります。

要約(オリジナル)

We explore the task of embodied view synthesis from monocular videos of deformable scenes. Given a minute-long RGBD video of people interacting with their pets, we render the scene from novel camera trajectories derived from the in-scene motion of actors: (1) egocentric cameras that simulate the point of view of a target actor and (2) 3rd-person cameras that follow the actor. Building such a system requires reconstructing the root-body and articulated motion of every actor, as well as a scene representation that supports free-viewpoint synthesis. Longer videos are more likely to capture the scene from diverse viewpoints (which helps reconstruction) but are also more likely to contain larger motions (which complicates reconstruction). To address these challenges, we present Total-Recon, the first method to photorealistically reconstruct deformable scenes from long monocular RGBD videos. Crucially, to scale to long videos, our method hierarchically decomposes the scene into the background and objects, whose motion is decomposed into carefully initialized root-body motion and local articulations. To quantify such ‘in-the-wild’ reconstruction and view synthesis, we collect ground-truth data from a specialized stereo RGBD capture rig for 11 challenging videos, significantly outperforming prior methods. Our code, model, and data can be found at https://andrewsonga.github.io/totalrecon .

arxiv情報

著者 Chonghyuk Song,Gengshan Yang,Kangle Deng,Jun-Yan Zhu,Deva Ramanan
発行日 2023-10-02 13:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク