要約
タイトル: GLIGEN: Open-Set Grounded Text-to-Image Generation
要約:
– 大規模なテキストから画像への変換モデルは、素晴らしい進歩を遂げています
– しかし、現状はテキストのみの入力を使用することが一般的で、コントロール性を妨げる可能性があります
– この論文では、グラウンド言語から画像生成する新しい手法、GLIGENを提案しています
– 既存の事前学習済みテキストから画像へのモデルの機能を拡張することで、グラウンディング入力に基づくモデルも利用できるようになります
– 事前学習済みモデルの概念知識を保持するため、すべての重みを凍結して、ゲート機構を介して新しいトレーニング可能なレイヤーにグラウンディング情報を注入します
– GLIGENは、キャプションやバウンディングボックスの条件付入力によるオープンワールドのグラウンドテキスト2img生成を実現し、グラウンディング能力は新しい空間構成と概念にも一般化されます
– GLIGENのCOOCやLVISに対するゼロショットの演算能力は、既存の監視レイアウトから画像をベースラインとするものをはるかに上回る。
要約(オリジナル)
Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image Generation, a novel approach that builds upon and extends the functionality of existing pre-trained text-to-image diffusion models by enabling them to also be conditioned on grounding inputs. To preserve the vast concept knowledge of the pre-trained model, we freeze all of its weights and inject the grounding information into new trainable layers via a gated mechanism. Our model achieves open-world grounded text2img generation with caption and bounding box condition inputs, and the grounding ability generalizes well to novel spatial configurations and concepts. GLIGEN’s zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin.
arxiv情報
著者 | Yuheng Li,Haotian Liu,Qingyang Wu,Fangzhou Mu,Jianwei Yang,Jianfeng Gao,Chunyuan Li,Yong Jae Lee |
発行日 | 2023-04-17 01:54:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI