SEED-Story: Multimodal Long Story Generation with Large Language Model

要約

画像生成とオープンフォームテキスト生成の目覚ましい進歩により、インターリーブされた画像とテキストのコンテンツの作成は、ますます興味深い分野になっています。
物語のテキストと鮮やかな画像を交互に生成することを特徴とするマルチモーダルなストーリー生成は、幅広い応用が可能な貴重で実用的なタスクとして浮上しています。
ただし、このタスクには、テキストと画像間の複雑な相互作用の理解と、一貫した文脈に関連したテキストとビジュアルの長いシーケンスを生成する能力が必要であるため、大きな課題が生じます。
この研究では、マルチモーダル大規模言語モデル (MLLM) を利用して拡張されたマルチモーダル ストーリーを生成する新しい方法である SEED-Story を提案します。
私たちのモデルは、MLLM の強力な理解機能に基づいて構築されており、テキスト トークンだけでなくビジュアル トークンも予測します。これらのトークンは、その後、適応されたビジュアル デトークナイザーで処理されて、一貫した文字とスタイルの画像が生成されます。
さらに、高効率な自己回帰方式で最大 25 シーケンス (トレーニング用は 10 シーケンスのみ) のストーリーを生成できるようにする、マルチモーダル アテンション シンク メカニズムを提案します。
さらに、モデルをトレーニングし、さまざまな側面でマルチモーダル ストーリー生成のタスクを定量的に評価するために、StoryStream という名前の大規模で高解像度のデータセットを紹介します。

要約(オリジナル)

With the remarkable advancements in image generation and open-form text generation, the creation of interleaved image-text content has become an increasingly intriguing field. Multimodal story generation, characterized by producing narrative texts and vivid images in an interleaved manner, has emerged as a valuable and practical task with broad applications. However, this task poses significant challenges, as it necessitates the comprehension of the complex interplay between texts and images, and the ability to generate long sequences of coherent, contextually relevant texts and visuals. In this work, we propose SEED-Story, a novel method that leverages a Multimodal Large Language Model (MLLM) to generate extended multimodal stories. Our model, built upon the powerful comprehension capability of MLLM, predicts text tokens as well as visual tokens, which are subsequently processed with an adapted visual de-tokenizer to produce images with consistent characters and styles. We further propose multimodal attention sink mechanism to enable the generation of stories with up to 25 sequences (only 10 for training) in a highly efficient autoregressive manner. Additionally, we present a large-scale and high-resolution dataset named StoryStream for training our model and quantitatively evaluating the task of multimodal story generation in various aspects.

arxiv情報

著者 Shuai Yang,Yuying Ge,Yang Li,Yukang Chen,Yixiao Ge,Ying Shan,Yingcong Chen
発行日 2024-07-11 17:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク