VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

要約

拡散モデルの最近の進歩は、さまざまな画像生成タスクを大幅に進めています。
ただし、現在の主流のアプローチは、幅広い異なるニーズをサポートする場合に効率が限られているタスク固有のモデルの構築に焦点を当てています。
ユニバーサルモデルはこの制限に対処しようとしますが、一般化可能なタスク命令、適切なタスク分布、統一された建築設計など、重要な課題に直面しています。
これらの課題に取り組むために、普遍的な画像生成フレームワークであるVisualClozeを提案します。これは、幅広いドメイン内のタスク、目に見えないものへの一般化、目に見えない複数のタスクの統一、および逆生成をサポートします。
言語ベースのタスク命令に依存してタスクのあいまいさと弱い一般化につながる既存の方法とは異なり、視覚的なコンテキスト学習を統合して、モデルが視覚的なデモンストレーションからタスクを特定できるようにします。
一方、視覚的なタスク分布の固有のスパースは、タスク全体で転送可能な知識の学習を妨げます。
この目的のために、さまざまな相互に関連したタスクを確立し、タスク密度と転送可能な知識を高めるグラフ構造データセットであるGraph200Kを導入します。
さらに、統一された画像生成の定式化が画像の充填と一貫した目的を共有していることを明らかにし、アーキテクチャを変更せずに事前に訓練された浸漬モデルの強力な生成前の事前を活用できるようにします。

要約(オリジナル)

Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

arxiv情報

著者 Zhong-Yu Li,Ruoyi Du,Juncheng Yan,Le Zhuo,Zhen Li,Peng Gao,Zhanyu Ma,Ming-Ming Cheng
発行日 2025-04-10 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク