What Does Stable Diffusion Know about the 3D Scene?

要約

安定拡散などの生成モデルの最近の進歩により、非常に写真のようにリアルな画像を生成できるようになりました。
この論文の目的は、拡散ネットワークを調査して、画像に描かれた 3D シーンのさまざまな特性を拡散ネットワークがどの程度「理解」しているかを判断することです。
この目的のために、私たちは以下の貢献をします。 (i) ネットワークが 3D シーンの多くの物理的な「プロパティ」をモデル化しているかどうかを、これらのプロパティを表す明示的な特徴を探索することによって評価するプロトコルを導入します。
プローブは、プロパティの注釈が付いた実際の画像のデータセットに適用されます。
(ii) このプロトコルを、シーンのジオメトリ、シーンのマテリアル、サポート関係、照明、およびビュー依存の測定をカバーするプロパティに適用します。
(iii) Stable Diffusion は、シーンのジオメトリ、サポート関係、シャドウ、深度などの多くの特性に優れていますが、オクルージョンのパフォーマンスが低いことがわかりました。
(iv) また、DINO や CLIP などの大規模でトレーニングされた他のモデルにもプローブを適用しましたが、そのパフォーマンスが安定拡散のパフォーマンスよりも劣ることがわかりました。

要約(オリジナル)

Recent advances in generative models like Stable Diffusion enable the generation of highly photo-realistic images. Our objective in this paper is to probe the diffusion network to determine to what extent it ‘understands’ different properties of the 3D scene depicted in an image. To this end, we make the following contributions: (i) We introduce a protocol to evaluate whether a network models a number of physical ‘properties’ of the 3D scene by probing for explicit features that represent these properties. The probes are applied on datasets of real images with annotations for the property. (ii) We apply this protocol to properties covering scene geometry, scene material, support relations, lighting, and view dependent measures. (iii) We find that Stable Diffusion is good at a number of properties including scene geometry, support relations, shadows and depth, but less performant for occlusion. (iv) We also apply the probes to other models trained at large-scale, including DINO and CLIP, and find their performance inferior to that of Stable Diffusion.

arxiv情報

著者 Guanqi Zhan,Chuanxia Zheng,Weidi Xie,Andrew Zisserman
発行日 2023-10-10 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク