SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

要約

テキストベースの 3D シーンの生成と編集には、直感的なユーザー インタラクションを通じてコン​​テンツ作成を合理化する大きな可能性が秘められています。
最近の進歩では、高忠実度のリアルタイム レンダリングに 3D ガウス スプラッティング (3DGS) が活用されていますが、既存の手法は多くの場合特殊化され、タスクに焦点を当てており、生成と編集の両方のための統一されたフレームワークが不足しています。
このペーパーでは、直接 3DGS の生成と編集を可能にすることでこのギャップに対処する包括的なフレームワークである SplatFlow を紹介します。
SplatFlow は、マルチビュー整流 (RF) モデルとガウス スプラッティング デコーダー (GSDecoder) の 2 つの主要コンポーネントで構成されます。
マルチビュー RF モデルは潜在空間で動作し、テキスト プロンプトに応じてマルチビュー イメージ、深度、カメラ ポーズを同時に生成するため、現実世界の設定における多様なシーン スケールや複雑なカメラ軌道などの課題に対処できます。
次に、GSDecoder は、フィードフォワード 3DGS メソッドを通じて、これらの潜在出力を 3DGS 表現に効率的に変換します。
SplatFlow は、トレーニング不要の反転および修復技術を活用することで、シームレスな 3DGS 編集を可能にし、追加の複雑なパイプラインを必要とせずに、統合フレームワーク内でオブジェクト編集、新規ビュー合成、カメラポーズ推定などの幅広い 3D タスクをサポートします。
MVImgNet および DL3DV-7K データセットで SplatFlow の機能を検証し、さまざまな 3D 生成、編集、修復ベースのタスクにおけるその多用途性と有効性を実証します。

要約(オリジナル)

Text-based generation and editing of 3D scenes hold significant potential for streamlining content creation through intuitive user interactions. While recent advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time rendering, existing methods are often specialized and task-focused, lacking a unified framework for both generation and editing. In this paper, we introduce SplatFlow, a comprehensive framework that addresses this gap by enabling direct 3DGS generation and editing. SplatFlow comprises two main components: a multi-view rectified flow (RF) model and a Gaussian Splatting Decoder (GSDecoder). The multi-view RF model operates in latent space, generating multi-view images, depths, and camera poses simultaneously, conditioned on text prompts, thus addressing challenges like diverse scene scales and complex camera trajectories in real-world settings. Then, the GSDecoder efficiently translates these latent outputs into 3DGS representations through a feed-forward 3DGS method. Leveraging training-free inversion and inpainting techniques, SplatFlow enables seamless 3DGS editing and supports a broad range of 3D tasks-including object editing, novel view synthesis, and camera pose estimation-within a unified framework without requiring additional complex pipelines. We validate SplatFlow’s capabilities on the MVImgNet and DL3DV-7K datasets, demonstrating its versatility and effectiveness in various 3D generation, editing, and inpainting-based tasks.

arxiv情報

著者 Hyojun Go,Byeongjun Park,Jiho Jang,Jin-Young Kim,Soonwoo Kwon,Changick Kim
発行日 2024-11-25 14:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク