要約
拡散モデルの急速な発展により、テキストからイメージ(T2I)モデルは大きな進歩を遂げ、迅速なフォローと画像生成の印象的な能力を示しています。
Flux.1やIdeogram2.0などの最近発売されたモデルは、Dall-E3やStable Diffusion 3のような他のモデルとともに、さまざまな複雑なタスクで例外的なパフォーマンスを実証し、T2Iモデルが一般的な適用性に向かっているかどうかについての疑問を提起しています。
従来の画像生成を超えて、これらのモデルは、制御可能な生成、画像編集、ビデオ、オーディオ、3D、モーション生成など、セマンティックセグメンテーションや深度推定などのコンピュータービジョンタスクなど、さまざまな分野で機能を示します。
ただし、現在の評価フレームワークは、拡大するドメイン全体でこれらのモデルのパフォーマンスを包括的に評価するには不十分です。
これらのモデルを徹底的に評価するために、Imagine-Eを開発し、Flux.1、Ideogram2.0、Midjourney、Dall-E3、Stable Diffusion 3、およびJimengの6つの顕著なモデルをテストしました。
私たちの評価は、構造化された出力生成、リアリズム、および物理的な一貫性、特定のドメイン生成、挑戦的なシナリオ生成、マルチスタイルの作成タスクの5つの重要なドメインに分けられます。
この包括的な評価は、各モデルの強みと制限、特に構造化されたドメインタスクにおけるFlux.1およびIDEOGRAM2.0の優れたパフォーマンスを強調し、基礎AIツールとしてのT2Iモデルの拡張アプリケーションとポテンシャルを強調しています。
この研究は、T2Iモデルが一般的な使いやすさに向かって進化する際に、現在の状態および将来の軌跡に関する貴重な洞察を提供します。
評価スクリプトはhttps://github.com/jylei16/imagine-eでリリースされます。
要約(オリジナル)
With the rapid development of diffusion models, text-to-image(T2I) models have made significant progress, showcasing impressive abilities in prompt following and image generation. Recently launched models such as FLUX.1 and Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have demonstrated exceptional performance across various complex tasks, raising questions about whether T2I models are moving towards general-purpose applicability. Beyond traditional image generation, these models exhibit capabilities across a range of fields, including controllable generation, image editing, video, audio, 3D, and motion generation, as well as computer vision tasks like semantic segmentation and depth estimation. However, current evaluation frameworks are insufficient to comprehensively assess these models’ performance across expanding domains. To thoroughly evaluate these models, we developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided into five key domains: structured output generation, realism, and physical consistency, specific domain generation, challenging scenario generation, and multi-style creation tasks. This comprehensive assessment highlights each model’s strengths and limitations, particularly the outstanding performance of FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring the expanding applications and potential of T2I models as foundational AI tools. This study provides valuable insights into the current state and future trajectory of T2I models as they evolve towards general-purpose usability. Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.
arxiv情報
著者 | Jiayi Lei,Renrui Zhang,Xiangfei Hu,Weifeng Lin,Zhen Li,Wenjian Sun,Ruoyi Du,Le Zhuo,Zhongyu Li,Xinyue Li,Shitian Zhao,Ziyu Guo,Yiting Lu,Peng Gao,Hongsheng Li |
発行日 | 2025-01-23 18:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google