GenSpace: Benchmarking Spatially-Aware Image Generation

要約

人間は、写真のために3Dスペースでシーンを直感的に構成して配置できます。
ただし、テキストまたは画像プロンプトから画像を作成する際に、同様の3D空間認識を持つ高度なAIイメージジェネレーターは、シーンを計画できますか?
現在の画像生成モデルの空間的認識を包括的に評価するために、新しいベンチマークと評価パイプラインであるGenspaceを紹介します。
さらに、一般的な視覚言語モデル(VLM)を使用した標準的な評価は、詳細な空間エラーをキャプチャできないことがよくあります。
この課題を処理するために、複数の視覚基盤モデルを使用して3Dシーンのジオメトリを再構築し、より正確で人間に合わせた空間的忠実さのメトリックを提供する専門的な評価パイプラインとメトリックを提案します。
私たちの調査結果は、AIモデルが視覚的に魅力的な画像を作成し、一般的な指示に従うことができる一方で、オブジェクトの配置、関係、測定などの特定の3Dの詳細と闘っていることを示しています。
現在の最先端の画像生成モデルの空間認識における3つのコア制限を要約します。1)オブジェクトの視点の理解、2)エゴセントリックアロコンセントリック変換、3)メトリック測定順守。画像生成における空間知能を改善するための可能な方向を強調します。

要約(オリジナル)

Humans can intuitively compose and arrange scenes in the 3D space for photography. However, can advanced AI image generators plan scenes with similar 3D spatial awareness when creating images from text or image prompts? We present GenSpace, a novel benchmark and evaluation pipeline to comprehensively assess the spatial awareness of current image generation models. Furthermore, standard evaluations using general Vision-Language Models (VLMs) frequently fail to capture the detailed spatial errors. To handle this challenge, we propose a specialized evaluation pipeline and metric, which reconstructs 3D scene geometry using multiple visual foundation models and provides a more accurate and human-aligned metric of spatial faithfulness. Our findings show that while AI models create visually appealing images and can follow general instructions, they struggle with specific 3D details like object placement, relationships, and measurements. We summarize three core limitations in the spatial perception of current state-of-the-art image generation models: 1) Object Perspective Understanding, 2) Egocentric-Allocentric Transformation and 3) Metric Measurement Adherence, highlighting possible directions for improving spatial intelligence in image generation.

arxiv情報

著者 Zehan Wang,Jiayang Xu,Ziang Zhang,Tianyu Pan,Chao Du,Hengshuang Zhao,Zhou Zhao
発行日 2025-05-30 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク