要約
既存の統一モデルは、ビジョン言語の理解とテキストからイメージの生成において強力なパフォーマンスを実現しますが、画像の認識と操作に対処することは限られたままです。
最近、Openaiは強力なGPT-4Oイメージモデルを導入しました。これは、包括的な画像認識と操作における高度な機能を紹介し、広範囲にわたる関心を引き起こします。
慎重に設計された実験を通じて、GPT-4O-Imageは、画像操作タスクに一般的に重要であると見なされているにもかかわらず、特徴抽出のためにvaesではなくセマンティックエンコーダに依存している可能性が高いことがわかります。
この洞察に触発されて、私たちは、強力なマルチモーダルの大手言語モデルと対照的なセマンティックエンコーダから抽出されたセマンティック機能に基づいて構築された統一された生成フレームワークであるUniworld-V1を提案します。
2.7mのトレーニングデータのみを使用して、Uniworld-V1は、画像の理解、生成、操作、知覚など、多様なタスクで印象的なパフォーマンスを実現します。
再現性とさらなる研究を促進するために、モデルの重み、トレーニングと評価スクリプト、データセットを含むUniworld-V1フレームワークを完全にオープンソーシングします。
要約(オリジナル)
Although existing unified models achieve strong performance in vision-language understanding and text-to-image generation, they remain limited in addressing image perception and manipulation — capabilities increasingly demanded in practical applications. Recently, OpenAI introduced the powerful GPT-4o-Image model, which showcases advanced capabilities in comprehensive image perception and manipulation, sparking widespread interest. Through carefully designed experiments, we observe that GPT-4o-Image likely relies on semantic encoders rather than VAEs for feature extraction, despite VAEs being commonly regarded as crucial for image manipulation tasks. Inspired by this insight, we propose UniWorld-V1, a unified generative framework built upon semantic features extracted from powerful multimodal large language models and contrastive semantic encoders. Using only 2.7M training data, UniWorld-V1 achieves impressive performance across diverse tasks, including image understanding, generation, manipulation, and perception. We fully open-source the UniWorld-V1 framework, including model weights, training and evaluation scripts, and datasets to promote reproducibility and further research.
arxiv情報
| 著者 | Bin Lin,Zongjian Li,Xinhua Cheng,Yuwei Niu,Yang Ye,Xianyi He,Shenghai Yuan,Wangbo Yu,Shaodong Wang,Yunyang Ge,Yatian Pang,Li Yuan |
| 発行日 | 2025-06-05 16:41:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google