要約
初期のGANベースのアプローチから拡散モデル、そして最近では、理解と生成のタスクを橋渡ししようとする統一された生成アーキテクチャまで、画像生成の景観は急速に進化してきました。
最近の進歩、特にGPT-4Oは、高忠実度のマルチモーダル生成の実現可能性を実証しており、その建築設計は神秘的で未発表のままです。
これにより、画像とテキスト生成がすでにこれらの方法の統一されたフレームワークに統合されているかどうかの問題が促されます。
この作業では、GPT-4oの画像生成機能の実証研究を実施し、主要なオープンソースおよび商業モデルに対してベンチマークを付けています。
私たちの評価では、テキストからイメージ、画像から画像、画像から3D、画像からXの世代など、20を超えるタスクを含む4つの主要なカテゴリをカバーしています。
私たちの分析は、さまざまな設定でのGPT-4Oの強みと制限を強調し、生成モデリングのより広い進化の範囲内でそれを位置づけます。
この調査を通じて、将来の統一された生成モデルの有望な方向を特定し、建築設計とデータスケーリングの役割を強調します。
要約(オリジナル)
The landscape of image generation has rapidly evolved, from early GAN-based approaches to diffusion models and, most recently, to unified generative architectures that seek to bridge understanding and generation tasks. Recent advances, especially the GPT-4o, have demonstrated the feasibility of high-fidelity multimodal generation, their architectural design remains mysterious and unpublished. This prompts the question of whether image and text generation have already been successfully integrated into a unified framework for those methods. In this work, we conduct an empirical study of GPT-4o’s image generation capabilities, benchmarking it against leading open-source and commercial models. Our evaluation covers four main categories, including text-to-image, image-to-image, image-to-3D, and image-to-X generation, with more than 20 tasks. Our analysis highlights the strengths and limitations of GPT-4o under various settings, and situates it within the broader evolution of generative modeling. Through this investigation, we identify promising directions for future unified generative models, emphasizing the role of architectural design and data scaling.
arxiv情報
著者 | Sixiang Chen,Jinbin Bai,Zhuoran Zhao,Tian Ye,Qingyu Shi,Donghao Zhou,Wenhao Chai,Xin Lin,Jianzong Wu,Chao Tang,Shilin Xu,Tao Zhang,Haobo Yuan,Yikang Zhou,Wei Chow,Linfeng Li,Xiangtai Li,Lei Zhu,Lu Qi |
発行日 | 2025-04-08 12:34:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google