PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

要約

Text-to-image (T2I) モデルは、テキスト プロンプトから画像を生成する点で大幅な進歩を遂げました。
しかし、世界のシミュレーションや日常業務におけるアプリケーションにとって重要な機能である、物理的な常識と一致する画像を生成できないことがよくあります。
現在の T2I 評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当てており、モデルの内部知識、特に物理的な常識の評価は無視されています。
この問題に対処するために、力学、光学、熱力学、材料特性の 4 つの主要カテゴリにわたる 700 のプロンプトで構成され、31 の異なる物理シナリオを網羅する包括的な T2I 評価データセットである PhyBench を導入します。
私たちは、独自のモデル DALLE3 や Gemini を含む 6 つの著名な T2I モデルを評価し、物理的原理をプロンプトに組み込むことで、物理的に正確な画像を生成するモデルの能力が強化されることを実証します。
私たちの調査結果では、次のことが明らかになりました。(1) 高度なモデルであっても、光学系を除いて、さまざまな物理的シナリオでは頻繁にエラーが発生します。
(2) GPT-4o は項目固有のスコアリング指示を備えており、人間の評価と密接に一致して、モデルの物理的常識の理解を効果的に評価します。
(3) 現在の T2I モデルは主にテキストから画像への変換に焦点を当てており、物理的な常識に関する深い推論が欠けています。
私たちは、単なる画像生成ツールとしての有用性を超えて、T2I モデル内に固有の知識への注目を高めることを提唱します。
コードとデータは https://github.com/OpenGVLab/PhyBench で入手できます。

要約(オリジナル)

Text-to-image (T2I) models have made substantial progress in generating images from textual prompts. However, they frequently fail to produce images consistent with physical commonsense, a vital capability for applications in world simulation and everyday tasks. Current T2I evaluation benchmarks focus on metrics such as accuracy, bias, and safety, neglecting the evaluation of models’ internal knowledge, particularly physical commonsense. To address this issue, we introduce PhyBench, a comprehensive T2I evaluation dataset comprising 700 prompts across 4 primary categories: mechanics, optics, thermodynamics, and material properties, encompassing 31 distinct physical scenarios. We assess 6 prominent T2I models, including proprietary models DALLE3 and Gemini, and demonstrate that incorporating physical principles into prompts enhances the models’ ability to generate physically accurate images. Our findings reveal that: (1) even advanced models frequently err in various physical scenarios, except for optics; (2) GPT-4o, with item-specific scoring instructions, effectively evaluates the models’ understanding of physical commonsense, closely aligning with human assessments; and (3) current T2I models are primarily focused on text-to-image translation, lacking profound reasoning regarding physical commonsense. We advocate for increased attention to the inherent knowledge within T2I models, beyond their utility as mere image generation tools. The code and data are available at https://github.com/OpenGVLab/PhyBench.

arxiv情報

著者 Fanqing Meng,Wenqi Shao,Lixin Luo,Yahong Wang,Yiran Chen,Quanfeng Lu,Yue Yang,Tianshuo Yang,Kaipeng Zhang,Yu Qiao,Ping Luo
発行日 2024-06-17 17:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク