要約
テキストから画像への拡散モデル (DM) の最近の人気は、DM がユーザーに提供する直感的なインターフェイスに大きく起因していると考えられます。
意図した生成は自然言語で表現でき、モデルはテキスト プロンプトの忠実な解釈を生成します。
ただし、複雑なアイデアや微妙なアイデアをテキストだけで表現するのは難しい場合があります。
画像生成を容易にするために、複数のモダリティと言語の任意にインターリーブされた入力で複雑で微妙な概念を表現できる MultiFusion を提案します。
MutliFusion は、事前トレーニングされたモデルを活用し、それらを調整して一貫したシステムに統合することで、最初から大規模なトレーニングを行う必要性を回避します。
私たちの実験結果は、個々のモジュールから下流モデルへの機能の効率的な伝達を示しています。
具体的には、すべての独立したコンポーネントを融合することで、画像生成モジュールが単一言語のモノモーダル データのみでトレーニングされているにもかかわらず、多言語のインターリーブされたマルチモーダル入力を利用できるようになります。
要約(オリジナル)
The recent popularity of text-to-image diffusion models (DM) can largely be attributed to the intuitive interface they provide to users. The intended generation can be expressed in natural language, with the model producing faithful interpretations of text prompts. However, expressing complex or nuanced ideas in text alone can be difficult. To ease image generation, we propose MultiFusion that allows one to express complex and nuanced concepts with arbitrarily interleaved inputs of multiple modalities and languages. MutliFusion leverages pre-trained models and aligns them for integration into a cohesive system, thereby avoiding the need for extensive training from scratch. Our experimental results demonstrate the efficient transfer of capabilities from individual modules to the downstream model. Specifically, the fusion of all independent components allows the image generation module to utilize multilingual, interleaved multimodal inputs despite being trained solely on monomodal data in a single language.
arxiv情報
著者 | Marco Bellagente,Manuel Brack,Hannah Teufel,Felix Friedrich,Björn Deiseroth,Constantin Eichenberg,Andrew Dai,Robert Baldock,Souradeep Nanda,Koen Oostermeijer,Andres Felipe Cruz-Salinas,Patrick Schramowski,Kristian Kersting,Samuel Weinbach |
発行日 | 2023-11-08 12:40:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google