要約
スパースビューからセマンティックアウェア3Dシーンを再構築することは、仮想現実や具体化されたAIなどの新興アプリケーションの要求によって推進される挑戦的でありながら不可欠な研究の方向性です。
既存のシーンごとの最適化方法には、密な入力ビューが必要であり、高い計算コストが発生しますが、一般化可能なアプローチは、入力ビューコーンの外側の領域を再構築するのに苦労することがよくあります。
この論文では、一般化可能な3D再構成の視野を拡大するオープンガウス成長方法であるOggsplatを提案します。
私たちの重要な洞察は、オープンガウスのセマンティックな属性が画像の外挿に強力な事前に提供し、セマンティックの一貫性と視覚的妥当性の両方を可能にすることです。
具体的には、オープンガウスがスパースビューから初期化されると、選択されたレンダリングビューに適用されるRGBセマンチックな一貫したインペインティングモジュールを導入します。
このモジュールは、画像拡散モデルとセマンティック拡散モデルとの間の双方向制御を実施します。
その後、塗装された領域は、効率的でプログレッシブなガウスパラメーターの最適化のために3Dスペースに戻されます。
私たちの方法を評価するために、再構築されたオープンボキャブラリーシーンのセマンティックと生成の両方の品質を評価するガウスの中断(GO)ベンチマークを確立します。
Oggsplatは、スマートフォンカメラから直接キャプチャされた2つのビュー画像が提供された場合、有望なセマンティックアウェアシーン再構成機能も示しています。
要約(オリジナル)
Reconstructing semantic-aware 3D scenes from sparse views is a challenging yet essential research direction, driven by the demands of emerging applications such as virtual reality and embodied AI. Existing per-scene optimization methods require dense input views and incur high computational costs, while generalizable approaches often struggle to reconstruct regions outside the input view cone. In this paper, we propose OGGSplat, an open Gaussian growing method that expands the field-of-view in generalizable 3D reconstruction. Our key insight is that the semantic attributes of open Gaussians provide strong priors for image extrapolation, enabling both semantic consistency and visual plausibility. Specifically, once open Gaussians are initialized from sparse views, we introduce an RGB-semantic consistent inpainting module applied to selected rendered views. This module enforces bidirectional control between an image diffusion model and a semantic diffusion model. The inpainted regions are then lifted back into 3D space for efficient and progressive Gaussian parameter optimization. To evaluate our method, we establish a Gaussian Outpainting (GO) benchmark that assesses both semantic and generative quality of reconstructed open-vocabulary scenes. OGGSplat also demonstrates promising semantic-aware scene reconstruction capabilities when provided with two view images captured directly from a smartphone camera.
arxiv情報
| 著者 | Yanbo Wang,Ziyi Wang,Wenzhao Zheng,Jie Zhou,Jiwen Lu |
| 発行日 | 2025-06-05 16:17:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google