要約
空間理解はコンピュータ ビジョンの基本的な側面であり、画像に関する人間レベルの推論に不可欠であり、地に足の着いた言語理解にとって重要な要素となっています。
最近のテキストから画像への合成 (T2I) モデルは、フォトリアリズムにおいて前例のない改善を示していますが、信頼できる空間理解能力を備えているかどうかは不明です。
私たちは、オブジェクト間の正しい空間関係を生成する T2I モデルの能力を調査し、テキストで説明された空間関係が画像内でどの程度正確に生成されるかを捕捉する評価指標である VISOR を提示します。
既存のモデルのベンチマークを行うために、2 つ以上のオブジェクトとそれらの間の空間的関係を説明する文を含むデータセット $\mathrm{SR}_{2D}$ を導入します。
私たちは、オブジェクトとその空間関係を認識するための自動評価パイプラインを構築し、それを T2I モデルの大規模評価に使用します。
私たちの実験では、最先端の T2I モデルは高画質を示しますが、複数のオブジェクトまたはオブジェクト間の指定された空間関係を生成する能力が大幅に制限されているという驚くべき発見が明らかになりました。
私たちの分析は、複数のオブジェクトを生成することの難しさ、言及された最初のオブジェクトの生成への偏り、等価な関係に対する空間的に一貫性のない出力、オブジェクトの共起と空間理解能力の間の相関など、T2I モデルのいくつかのバイアスとアーティファクトを示しています。
私たちは、VISOR と空間理解に関する人間の判断との整合性を示す人体研究を実施しています。
T2I 推論研究をサポートするために、$\mathrm{SR}_{2D}$ データセットと VISOR メトリクスをコミュニティに提供しています。
要約(オリジナル)
Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a dataset, $\mathrm{SR}_{2D}$, that contains sentences describing two or more objects and the spatial relationships between them. We construct an automated evaluation pipeline to recognize objects and their spatial relationships, and employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations between them. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgement about spatial understanding. We offer the $\mathrm{SR}_{2D}$ dataset and the VISOR metric to the community in support of T2I reasoning research.
arxiv情報
著者 | Tejas Gokhale,Hamid Palangi,Besmira Nushi,Vibhav Vineet,Eric Horvitz,Ece Kamar,Chitta Baral,Yezhou Yang |
発行日 | 2023-10-27 17:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google