要約
この研究では、複雑なマルチモーダル プロンプト シーケンスから新しい画像を生成する問題を研究します。
既存の方法では、テキストから画像への生成に関して有望な結果が得られますが、長いプロンプトからきめの細かい詳細をキャプチャし、プロンプト シーケンス内で文脈の一貫性を維持するのに苦労することがよくあります。
さらに、複数のオブジェクトをフィーチャーしたプロンプト シーケンスでは、画像の生成に不整合が生じることがよくあります。
これに対処するために、大規模言語モデル (LLM) と拡散モデルの組み合わせ機能を活用して、複雑なマルチモーダル プロンプト シーケンスから新しい画像を生成する、クロスモーダル インコンテキスト学習によるマルチモーダル生成 (MGCC) 手法を提案します。
私たちの MGCC は、LLM 埋め込み空間内のテキストと画像の間のクロスモーダル依存関係を明示的に学習する新しいクロスモーダル リファインメント モジュールと、複数のオブジェクトを含むシーンを特にターゲットとするオブジェクト境界ボックスを生成するコンテキスト オブジェクト グラウンディング モジュールで構成されています。
当社の MGCC は、新しい画像の生成、マルチモーダル対話の促進、テキストの生成など、さまざまなマルチモーダル機能を実証します。
2 つのベンチマーク データセットに対する実験評価により、私たちの手法の有効性が実証されました。
マルチモーダル入力を含む Visual Story Generation (VIST) データセットでは、MGCC は SOTA GILL $0.641$ と比較して $0.652$ の CLIP 類似性スコアを達成しました。
同様に、長い対話シーケンスを持つ Visual Dialogue Context (VisDial) では、MGCC は $0.660$ という素晴らしい CLIP スコアを達成し、既存の SOTA メソッドのスコア $0.645$ を大幅に上回りました。
コード: https://github.com/VIROBO-15/MGCC
要約(オリジナル)
In this work, we study the problem of generating novel images from complex multimodal prompt sequences. While existing methods achieve promising results for text-to-image generation, they often struggle to capture fine-grained details from lengthy prompts and maintain contextual coherence within prompt sequences. Moreover, they often result in misaligned image generation for prompt sequences featuring multiple objects. To address this, we propose a Multi-modal Generation via Cross-Modal In-Context Learning (MGCC) method that generates novel images from complex multimodal prompt sequences by leveraging the combined capabilities of large language models (LLMs) and diffusion models. Our MGCC comprises a novel Cross-Modal Refinement module to explicitly learn cross-modal dependencies between the text and image in the LLM embedding space, and a contextual object grounding module to generate object bounding boxes specifically targeting scenes with multiple objects. Our MGCC demonstrates a diverse range of multimodal capabilities, like novel image generation, the facilitation of multimodal dialogue, and generation of texts. Experimental evaluations on two benchmark datasets, demonstrate the effectiveness of our method. On Visual Story Generation (VIST) dataset with multimodal inputs, our MGCC achieves a CLIP Similarity score of $0.652$ compared to SOTA GILL $0.641$. Similarly, on Visual Dialogue Context (VisDial) having lengthy dialogue sequences, our MGCC achieves an impressive CLIP score of $0.660$, largely outperforming existing SOTA method scoring $0.645$. Code: https://github.com/VIROBO-15/MGCC
arxiv情報
著者 | Amandeep Kumar,Muzammal Naseer,Sanath Narayan,Rao Muhammad Anwer,Salman Khan,Hisham Cholakkal |
発行日 | 2024-05-28 15:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google