GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

要約

OpenAIのGPT4oモデルにおける最近のブレークスルーは、画像生成と編集において驚くほど優れた能力を実証し、コミュニティに大きな興奮をもたらしました。本テクニカルレポートでは、GPT-4oの性能を3つの重要な次元((1)生成の質、(2)編集の熟練度、(3)世界知識に基づく意味合成)で定量的・定性的に診断する、ファーストルック評価ベンチマーク(GPT-ImgEval)を紹介します。GPT-4oは、3つのタスクすべてにおいて、画像生成制御と出力品質の両面で既存の手法を大きく上回る強力な性能を示すと同時に、卓越した知識推論能力を示す。さらに、GPT-4oの生成データに基づいて、GPT-4oの基礎となるアーキテクチャを調査するために、分類モデルに基づくアプローチを提案する。我々の実証結果は、モデルがVARのようなアーキテクチャではなく、画像デコードのための拡散ベースのヘッドと組み合わされた自己回帰(AR)で構成されていることを示唆している。また、GPT-4oの全体的なアーキテクチャに関する完全な推測も提供する。さらに、GPT-4o特有の限界と、その画像生成で一般的に観察される合成アーチファクトを特定し、可視化するための一連の解析を実施する。また、GPT-4oとGemini 2.0 Flashのマルチラウンド画像編集の比較研究を紹介し、GPT-4oの出力の安全性への影響、特に既存の画像フォレンジックモデルによる検出可能性について議論する。我々の研究が貴重な知見を提供し、将来の研究の指針となる信頼性の高いベンチマークを提供し、再現性を促進し、画像生成の分野およびそれ以外の分野での技術革新を加速できることを期待している。GPT-4oの評価に使用したコードとデータセットは、https://github.com/PicoTrex/GPT-ImgEval。

要約(オリジナル)

The recent breakthroughs in OpenAI’s GPT4o model have demonstrated surprisingly good capabilities in image generation and editing, resulting in significant excitement in the community. This technical report presents the first-look evaluation benchmark (named GPT-ImgEval), quantitatively and qualitatively diagnosing GPT-4o’s performance across three critical dimensions: (1) generation quality, (2) editing proficiency, and (3) world knowledge-informed semantic synthesis. Across all three tasks, GPT-4o demonstrates strong performance, significantly surpassing existing methods in both image generation control and output quality, while also showcasing exceptional knowledge reasoning capabilities. Furthermore, based on the GPT-4o’s generated data, we propose a classification-model-based approach to investigate the underlying architecture of GPT-4o, where our empirical results suggest the model consists of an auto-regressive (AR) combined with a diffusion-based head for image decoding, rather than the VAR-like architectures. We also provide a complete speculation on GPT-4o’s overall architecture. In addition, we conduct a series of analyses to identify and visualize GPT-4o’s specific limitations and the synthetic artifacts commonly observed in its image generation. We also present a comparative study of multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the safety implications of GPT-4o’s outputs, particularly their detectability by existing image forensic models. We hope that our work can offer valuable insight and provide a reliable benchmark to guide future research, foster reproducibility, and accelerate innovation in the field of image generation and beyond. The codes and datasets used for evaluating GPT-4o can be found at https://github.com/PicoTrex/GPT-ImgEval.

arxiv情報

著者 Zhiyuan Yan,Junyan Ye,Weijia Li,Zilong Huang,Shenghai Yuan,Xiangyang He,Kaiqing Lin,Jun He,Conghui He,Li Yuan
発行日 2025-04-03 17:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク