StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

要約

テキストから画像への合成における最近の進歩により、特定のテキストからビジュアライゼーションを生成する優れた機能を備えた大規模な事前トレーニング済みトランスフォーマーが生まれました。
ただし、これらのモデルは、ストーリーの視覚化などの特殊なタスクには適していません。エージェントは、対応する一連のキャプションを指定して画像のシーケンスを生成し、物語を形成する必要があります。
さらに、ストーリーの視覚化タスクは、新しい物語の目に見えないプロットやキャラクターへの一般化に対応できないことがわかりました。
したがって、最初にストーリーの継続のタスクを提案します。このタスクでは、生成された視覚的なストーリーがソース画像に基づいて調整され、新しいキャラクターによる物語へのより良い一般化が可能になります。
次に、事前トレーニング済みのテキストから画像への合成モデルを、(a) 順次画像生成および (b) 初期フレームからの関連要素のコピーのためのタスク固有のモジュールで強化または「レトロフィット」します。
次に、完全なモデルの微調整と、事前トレーニング済みモデルのパラメーター効率の高い適応のためのプロンプトベースの調整について説明します。
アプローチ StoryDALL-E を 2 つの既存のデータセット、PororoSV と FlintstonesSV で評価し、ビデオ キャプション データセットから収集した新しいデータセット DiDeMoSV を導入します。
また、ストーリーの継続のために Generative Adversarial Networks (GAN) に基づくモデル StoryGANc を開発し、それを StoryDALL-E モデルと比較して、私たちのアプローチの利点を示します。
私たちのレトロ フィッティング アプローチは、ストーリー継続のための GAN ベースのモデルよりも優れており、ソース画像からのビジュアル要素のコピーを容易にし、生成されたビジュアル ストーリーの継続性を向上させることを示しています。
最後に、私たちの分析は、事前に訓練されたトランスフォーマーが複数のキャラクターを含む物語を理解するのに苦労していることを示唆しています.
全体として、私たちの作業は、事前トレーニング済みのテキストから画像への合成モデルを、ストーリーの継続などの複雑でリソースの少ないタスクに適応できることを示しています。

要約(オリジナル)

Recent advances in text-to-image synthesis have led to large pretrained transformers with excellent capabilities to generate visualizations from a given text. However, these models are ill-suited for specialized tasks like story visualization, which requires an agent to produce a sequence of images given a corresponding sequence of captions, forming a narrative. Moreover, we find that the story visualization task fails to accommodate generalization to unseen plots and characters in new narratives. Hence, we first propose the task of story continuation, where the generated visual story is conditioned on a source image, allowing for better generalization to narratives with new characters. Then, we enhance or ‘retro-fit’ the pretrained text-to-image synthesis models with task-specific modules for (a) sequential image generation and (b) copying relevant elements from an initial frame. Then, we explore full-model finetuning, as well as prompt-based tuning for parameter-efficient adaptation, of the pre-trained model. We evaluate our approach StoryDALL-E on two existing datasets, PororoSV and FlintstonesSV, and introduce a new dataset DiDeMoSV collected from a video-captioning dataset. We also develop a model StoryGANc based on Generative Adversarial Networks (GAN) for story continuation, and compare it with the StoryDALL-E model to demonstrate the advantages of our approach. We show that our retro-fitting approach outperforms GAN-based models for story continuation and facilitates copying of visual elements from the source image, thereby improving continuity in the generated visual story. Finally, our analysis suggests that pretrained transformers struggle to comprehend narratives containing several characters. Overall, our work demonstrates that pretrained text-to-image synthesis models can be adapted for complex and low-resource tasks like story continuation.

arxiv情報

著者 Adyasha Maharana,Darryl Hannan,Mohit Bansal
発行日 2022-09-13 17:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク