要約
このホワイトペーパーでは、画像生成モデルの推論能力を調査するために、大規模なマルチディシップラインマルチディスマルチイメージ生成ベンチマーク(MMMG)に加えて、新しいタスクとして知識画像生成を新しいタスクとして紹介します。
知識のイメージは、人間の文明と人間の学習のメカニズムの中心であり、二重コーディング理論と絵の監視効果によって強調されている事実です。
そのような画像を生成することは、世界の知識をピクセルレベルの接地と明確な説明ビジュアルに融合させる、挑戦的で要求の厳しいマルチモーダル推論です。
包括的な評価を可能にするために、MMMGは、10の分野、6つの教育レベル、チャート、図、マインドマップなどの多様な知識形式にまたがる4,456の専門家対象(知識)画像プロムプトペアを提供します。
評価中に交絡の複雑さを排除するために、統一された知識グラフ(kg)表現を採用します。
各kgは、ターゲット画像のコアエンティティとその依存関係を明示的に描写します。
さらに、MMMGスコアを紹介して、生成された知識画像を評価します。
このメトリックは、KG間のグラフ編集距離で測定された事実上の忠実度と、視覚的な明瞭さの評価を組み合わせています。
16の最先端のテキストからイメージへの生成モデルの包括的な評価により、深刻な推論障害(低いエンティティ、弱い関係、乱雑)がGPT-4oで、わずか50.20のMMMGスコアを達成し、ベンチマークの困難を強調しています。
さらなる進行のために、推論LLMと拡散モデルを組み合わせ、16,000のキュレーションナレッジイメージプロムプトペアでトレーニングされる効果的でオープンなベースラインであるFlux-Reason(MMMG-Score 34.45)をリリースします。
要約(オリジナル)
In this paper, we introduce knowledge image generation as a new task, alongside the Massive Multi-Discipline Multi-Tier Knowledge-Image Generation Benchmark (MMMG) to probe the reasoning capability of image generation models. Knowledge images have been central to human civilization and to the mechanisms of human learning–a fact underscored by dual-coding theory and the picture-superiority effect. Generating such images is challenging, demanding multimodal reasoning that fuses world knowledge with pixel-level grounding into clear explanatory visuals. To enable comprehensive evaluation, MMMG offers 4,456 expert-validated (knowledge) image-prompt pairs spanning 10 disciplines, 6 educational levels, and diverse knowledge formats such as charts, diagrams, and mind maps. To eliminate confounding complexity during evaluation, we adopt a unified Knowledge Graph (KG) representation. Each KG explicitly delineates a target image’s core entities and their dependencies. We further introduce MMMG-Score to evaluate generated knowledge images. This metric combines factual fidelity, measured by graph-edit distance between KGs, with visual clarity assessment. Comprehensive evaluations of 16 state-of-the-art text-to-image generation models expose serious reasoning deficits–low entity fidelity, weak relations, and clutter–with GPT-4o achieving an MMMG-Score of only 50.20, underscoring the benchmark’s difficulty. To spur further progress, we release FLUX-Reason (MMMG-Score of 34.45), an effective and open baseline that combines a reasoning LLM with diffusion models and is trained on 16,000 curated knowledge image-prompt pairs.
arxiv情報
著者 | Yuxuan Luo,Yuhui Yuan,Junwen Chen,Haonan Cai,Ziyi Yue,Yuwei Yang,Fatima Zohra Daha,Ji Li,Zhouhui Lian |
発行日 | 2025-06-12 17:58:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google