Instruct-Imagen: Image Generation with Multi-modal Instruction


本稿では、異種の画像生成タスクに取り組み、未知のタスクに汎化するモデルであるinstruct-imagenを紹介する。画像生成のための*マルチモーダル命令*を導入し、様々な生成意図を正確に表現するタスク表現とする。これは、自然言語を用いて異種のモダリティ(例えば、テキスト、エッジ、スタイル、主題など)を統合し、豊富な生成意図を統一的なフォーマットで標準化できるようにする。 次に、事前に訓練されたテキストから画像への拡散モデルを2段階のフレームワークで微調整することにより、instruct-imagenを構築する。まず、検索補強訓練を用いてモデルを適応させ、外部マルチモーダル文脈に基づく生成能力を強化する。その後、視覚言語理解を必要とする多様な画像生成タスク(例えば、被写体駆動型生成など)において、適応したモデルを微調整し、それぞれがタスクの本質をカプセル化したマルチモーダル命令と対になる。様々な画像生成データセットを用いた人間による評価により、instruct-imagenは、先行するタスクに特化したモデルと領域内で一致するか、それを上回ることが明らかになり、未知のタスクやより複雑なタスクへの有望な汎化を示す。


This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model’s capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task’s essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.


著者 Hexiang Hu,Kelvin C. K. Chan,Yu-Chuan Su,Wenhu Chen,Yandong Li,Kihyuk Sohn,Yang Zhao,Xue Ben,Boqing Gong,William Cohen,Ming-Wei Chang,Xuhui Jia
発行日 2024-01-03 19:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク