要約
1 つ以上の画像から没入型の 3D 屋内シーンを合成する問題を研究します。
私たちの目的は、3D の一貫性を維持しながら、入力画像をはるかに超えて外挿する視点など、新しい視点から高解像度の画像とビデオを生成することです。
既存のアプローチは非常に複雑で、個別にトレーニングされた多くのステージとコンポーネントがあります。
単純な代替案を提案します。不完全な点群の再投影から完全な高解像度 RGB-D 画像に直接マッピングする画像から画像への GAN です。
Matterport3D および RealEstate10K データセットでは、FID スコアだけでなく、人間によって評価された場合、私たちのアプローチは以前の研究よりも大幅に優れています。
さらに、モデルが生成データ拡張に役立つことを示します。
モデルによって空間的に摂動された軌跡でトレーニングされた視覚言語ナビゲーション (VLN) エージェントは、R2R ベンチマークの最先端のベースラインよりも成功率を最大 1.5% 向上させます。
私たちのコードは、生成データの拡張と、下流のロボティクスおよび具現化された AI タスクへの適用を促進するために利用可能になります。
要約(オリジナル)
We study the problem of synthesizing immersive 3D indoor scenes from one or more images. Our aim is to generate high-resolution images and videos from novel viewpoints, including viewpoints that extrapolate far beyond the input images while maintaining 3D consistency. Existing approaches are highly complex, with many separately trained stages and components. We propose a simple alternative: an image-to-image GAN that maps directly from reprojections of incomplete point clouds to full high-resolution RGB-D images. On the Matterport3D and RealEstate10K datasets, our approach significantly outperforms prior work when evaluated by humans, as well as on FID scores. Further, we show that our model is useful for generative data augmentation. A vision-and-language navigation (VLN) agent trained with trajectories spatially-perturbed by our model improves success rate by up to 1.5% over a state of the art baseline on the R2R benchmark. Our code will be made available to facilitate generative data augmentation and applications to downstream robotics and embodied AI tasks.
arxiv情報
著者 | Jing Yu Koh,Harsh Agrawal,Dhruv Batra,Richard Tucker,Austin Waters,Honglak Lee,Yinfei Yang,Jason Baldridge,Peter Anderson |
発行日 | 2022-12-01 16:19:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google