要約
テキストから画像への変換 (T2I) およびビジョン言語から画像への生成 (VL2I) の最近の進歩は、大きく進歩しました。
しかし、特に複数の画像を含む一般化された視覚言語入力からの生成については、まだ研究が進んでいません。
このペーパーでは、前述の課題に取り組むために、マルチモーダル大規模言語モデル (MLLM) の高度な認識機能を活用するモデルである Kosmos-G について説明します。
私たちのアプローチは、テキストモダリティをアンカーとして使用して、MLLM の出力空間を CLIP と調整し、厳選されたデータに対して構成的な指示のチューニングを実行します。
Kosmos-G は、ゼロショット マルチエンティティのサブジェクト駆動型生成という独自の機能を実証します。
特に、スコア蒸留命令の調整には画像デコーダの変更は必要ありません。
これにより、CLIP のシームレスな置き換えが可能になり、きめ細かいコントロールからパーソナライズされた画像デコーダのバリエーションに至るまで、無数の U-Net 技術との簡単な統合が可能になります。
私たちは、Kosmos-G を「画像生成における外国語としての画像」という目標に向けた最初の試みとして位置づけています。
要約(オリジナル)
Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of ‘image as a foreign language in image generation.’
arxiv情報
著者 | Xichen Pan,Li Dong,Shaohan Huang,Zhiliang Peng,Wenhu Chen,Furu Wei |
発行日 | 2023-10-04 17:28:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google