要約
Dall-E 2 や Stable Diffusion など、テキストに対して条件付きで画像を生成する拡散モデルは、最近、コンピューター ビジョン コミュニティをはるかに超えて注目を集めています。
ここでは、無条件および条件付きで画像を使用して点群を生成するという関連する問題に取り組みます。
後者については、ノイズ除去プロセスのすべてのステップで、まばらな画像特徴を点群に投影し、それらを個々の点にアタッチすることに基づく、幾何学的に動機付けられた新しい調整スキームを導入します。
このアプローチにより、幾何学的な一貫性が向上し、構造化されていないグローバル潜在コードに依存する現在の方法よりも高い忠実度が得られます。
さらに、最近の連続時間拡散スキームを適用する方法を示します。
私たちの方法は、合成データの条件付きおよび無条件の実験で最先端技術と同等以上の性能を発揮し、高速で軽量で扱いやすい可能性を提供します。
さまざまな屋内シーンにも対応できることを示しています。
要約(オリジナル)
Diffusion models generating images conditionally on text, such as Dall-E 2 and Stable Diffusion, have recently made a splash far beyond the computer vision community. Here, we tackle the related problem of generating point clouds, both unconditionally, and conditionally with images. For the latter, we introduce a novel geometrically-motivated conditioning scheme based on projecting sparse image features into the point cloud and attaching them to each individual point, at every step in the denoising process. This approach improves geometric consistency and yields greater fidelity than current methods relying on unstructured, global latent codes. Additionally, we show how to apply recent continuous-time diffusion schemes. Our method performs on par or above the state of art on conditional and unconditional experiments on synthetic data, while being faster, lighter, and delivering tractable likelihoods. We show it can also scale to diverse indoors scenes.
arxiv情報
著者 | Michał J. Tyszkiewicz,Pascal Fua,Eduard Trulls |
発行日 | 2023-03-10 13:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google