要約
Dall-E 2 や Stable Diffusion など、テキストに応じて画像を生成する拡散モデルは、最近、コンピューター ビジョン コミュニティをはるかに超えて注目を集めています。
ここでは、画像を使用して無条件および条件付きで点群を生成するという関連する問題に取り組みます。
後者については、ノイズ除去プロセスの各ステップで、まばらな画像特徴を点群に投影し、それらを個々の点にアタッチすることに基づいた、新しい幾何学的動機付けの調整スキームを導入します。
このアプローチにより、幾何学的一貫性が向上し、非構造化のグローバル潜在コードに依存する現在の方法よりも高い忠実度が得られます。
さらに、最近の連続時間拡散スキームを適用する方法を示します。
私たちの手法は、合成データに対する条件付きおよび無条件の実験において最先端技術と同等以上の性能を発揮し、さらに高速かつ軽量で扱いやすい尤度を実現します。
さまざまな屋内シーンにも対応できることを示します。
要約(オリジナル)
Diffusion models generating images conditionally on text, such as Dall-E 2 and Stable Diffusion, have recently made a splash far beyond the computer vision community. Here, we tackle the related problem of generating point clouds, both unconditionally, and conditionally with images. For the latter, we introduce a novel geometrically-motivated conditioning scheme based on projecting sparse image features into the point cloud and attaching them to each individual point, at every step in the denoising process. This approach improves geometric consistency and yields greater fidelity than current methods relying on unstructured, global latent codes. Additionally, we show how to apply recent continuous-time diffusion schemes. Our method performs on par or above the state of art on conditional and unconditional experiments on synthetic data, while being faster, lighter, and delivering tractable likelihoods. We show it can also scale to diverse indoors scenes.
arxiv情報
著者 | Michał J. Tyszkiewicz,Pascal Fua,Eduard Trulls |
発行日 | 2023-09-25 14:28:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google