要約
この研究では、統合画像生成のための新しい普及モデルである OmniGen を紹介します。
一般的な拡散モデル (安定拡散など) とは異なり、OmniGen は、多様な制御条件を処理するために ControlNet や IP アダプターなどの追加モジュールを必要としません。
OmniGenis の特徴は次のとおりです。 1) 統合: OmniGen は、テキストから画像への生成機能を実証するだけでなく、画像編集、主題駆動型生成、視覚条件付き生成などの他の下流タスクも本質的にサポートします。
さらに、OmniGen は、エッジ検出や人間の姿勢認識などの画像生成タスクに変換することで、古典的なコンピューター ビジョン タスクを処理できます。
2) シンプルさ: OmniGen のアーキテクチャは非常に単純化されており、追加のテキスト エンコーダの必要性がありません。
さらに、既存の拡散モデルと比較してユーザーフレンドリーであり、追加の前処理ステップ (人間の姿勢推定など) を必要とせずに、複雑なタスクを命令によって実行できるため、画像生成のワークフローが大幅に簡素化されます。
3) 知識の伝達: 統一フォーマットでの学習を通じて、OmniGen はさまざまなタスク間で知識を効果的に伝達し、目に見えないタスクとドメインを管理し、新しい機能を発揮します。
また、モデルの推論機能と思考連鎖メカニズムの潜在的な応用についても調査します。
この研究は、汎用画像生成モデルの最初の試みであり、いくつかの未解決の問題が残っています。
この分野の進歩を促進するために、https://github.com/VectorSpaceLab/OmniGen で関連リソースをオープンソース化します。
要約(オリジナル)
In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model’s reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.
arxiv情報
著者 | Shitao Xiao,Yueze Wang,Junjie Zhou,Huaying Yuan,Xingrun Xing,Ruiran Yan,Shuting Wang,Tiejun Huang,Zheng Liu |
発行日 | 2024-09-17 16:42:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google