MultiBooth: Towards Generating All Your Concepts in an Image from Text

要約

この文書では、テキストから画像を生成する際のマルチコンセプトのカスタマイズのための、新しく効率的な技術である MultiBooth を紹介します。
特に拡散モデルの成功により、カスタマイズされた生成方法が大幅に進歩したにもかかわらず、既存の方法は、概念の忠実度が低く、推論コストが高いため、複数概念のシナリオで苦労することがよくあります。
MultiBooth は、マルチコンセプト生成プロセスを単一コンセプトの学習フェーズとマルチコンセプトの統合フェーズの 2 つのフェーズに分割することで、これらの問題に対処します。
単一概念の学習フェーズでは、マルチモーダル画像エンコーダーと効率的な概念エンコード技術を採用して、各概念の簡潔で識別的な表現を学習します。
複数概念の統合フェーズでは、バウンディング ボックスを使用して、クロス アテンション マップ内の各概念の生成領域を定義します。
この方法により、指定された領域内で個別の概念を作成できるため、複数の概念のイメージの形成が容易になります。
この戦略により、概念の忠実度が向上するだけでなく、追加の推論コストも削減されます。
MultiBooth は、定性的および定量的評価の両方でさまざまなベースラインを上回り、その優れたパフォーマンスと計算効率を示しています。
プロジェクトページ: https://multibooth.github.io/

要約(オリジナル)

This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly with the success of diffusion models, existing methods often struggle with multi-concept scenarios due to low concept fidelity and high inference cost. MultiBooth addresses these issues by dividing the multi-concept generation process into two phases: a single-concept learning phase and a multi-concept integration phase. During the single-concept learning phase, we employ a multi-modal image encoder and an efficient concept encoding technique to learn a concise and discriminative representation for each concept. In the multi-concept integration phase, we use bounding boxes to define the generation area for each concept within the cross-attention map. This method enables the creation of individual concepts within their specified regions, thereby facilitating the formation of multi-concept images. This strategy not only improves concept fidelity but also reduces additional inference cost. MultiBooth surpasses various baselines in both qualitative and quantitative evaluations, showcasing its superior performance and computational efficiency. Project Page: https://multibooth.github.io/

arxiv情報

著者 Chenyang Zhu,Kai Li,Yue Ma,Chunming He,Li Xiu
発行日 2024-04-22 14:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク