GFlow: Recovering 4D World from Monocular Video

要約

ビデオ入力から 4D シーンを再構築することは、重要かつ困難な作業です。
従来の方法は通常、マルチビュー ビデオ入力、既知のカメラ パラメータ、または静的シーンの仮定に依存していますが、これらはすべて、実際のシナリオでは通常存在しません。
この論文では、これらすべての制約を緩和し、AnyV4D と名付けた、非常に野心的だが実用的なタスクに取り組みます。入力としてカメラ パラメーターなしで 1 つの単眼ビデオのみが利用可能であると想定し、動的な 4D 世界を復元することを目指します。
カメラのポーズ。
この目的を達成するために、2D 事前分布 (深度およびオプティカル フロー) のみを利用して、ビデオ (3D) を 4D の明示的な表現に引き上げる新しいフレームワークである GFlow を導入します。これには、空間と時間にわたるガウス スプラッティングのフローが伴います。
GFlow は、まずシーンを静止部分と動きのある部分にクラスタリングし、次に 2D 事前分布とシーン クラスタリングに基づいてカメラのポーズと 3D ガウス ポイントのダイナミクスを最適化する連続的な最適化プロセスを適用し、隣接するポイント間の忠実性とフレーム間のスムーズな動きを保証します。
動的シーンでは常に新しいコンテンツが導入されるため、新しいビジュアル コンテンツを統合するためのガウス ポイントの新しいピクセル単位の高密度化戦略も提案します。
さらに、GFlow は単なる 4D 再構築の境界を超えています。
また、事前のトレーニングを必要とせずにフレーム全体の任意のポイントを追跡し、教師なしの方法でシーンから移動オブジェクトをセグメント化することもできます。
さらに、各フレームのカメラ ポーズを GFlow から取得できるため、カメラ ポーズを変更することでビデオ シーンの新しいビューをレンダリングできます。
明示的な表現を採用することで、必要に応じてシーン レベルまたはオブジェクト レベルの編集を容易に実行でき、その多用途性と強力さが強調されます。
プロジェクト Web サイトにアクセスしてください: https://littlepure2333.github.io/GFlow

要約(オリジナル)

Reconstructing 4D scenes from video inputs is a crucial yet challenging task. Conventional methods usually rely on the assumptions of multi-view video inputs, known camera parameters, or static scenes, all of which are typically absent under in-the-wild scenarios. In this paper, we relax all these constraints and tackle a highly ambitious but practical task, which we termed as AnyV4D: we assume only one monocular video is available without any camera parameters as input, and we aim to recover the dynamic 4D world alongside the camera poses. To this end, we introduce GFlow, a new framework that utilizes only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit representation, entailing a flow of Gaussian splatting through space and time. GFlow first clusters the scene into still and moving parts, then applies a sequential optimization process that optimizes camera poses and the dynamics of 3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity among neighboring points and smooth movement across frames. Since dynamic scenes always introduce new content, we also propose a new pixel-wise densification strategy for Gaussian points to integrate new visual content. Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also enables tracking of any points across frames without the need for prior training and segments moving objects from the scene in an unsupervised way. Additionally, the camera poses of each frame can be derived from GFlow, allowing for rendering novel views of a video scene through changing camera pose. By employing the explicit representation, we may readily conduct scene-level or object-level editing as desired, underscoring its versatility and power. Visit our project website at: https://littlepure2333.github.io/GFlow

arxiv情報

著者 Shizun Wang,Xingyi Yang,Qiuhong Shen,Zhenxiang Jiang,Xinchao Wang
発行日 2024-05-28 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク