Masked Generative Story Transformer with Character Guidance and Caption Augmentation

要約

ストーリー ビジュアライゼーション (SV) は、視覚的な品質と、生成された画像シーケンス内の異なるフレーム間の一貫性の両方が必要な、挑戦的な生成ビジョン タスクです。
これまでのアプローチでは、ある種のメモリ メカニズムを使用して画像シーケンスの自動回帰生成全体でコンテキストを維持するか、文字とその背景の生成を個別にモデル化して文字のレンダリングを改善していました。
それどころか、私たちは完全に並列トランスフォーマーベースのアプローチを採用しており、一貫性を実現するために過去および将来のキャプションとのクロスアテンションのみに依存しています。
さらに、ロジット空間でテキスト条件付きロジットと文字条件付きロジットの組み合わせを形成することにより、暗黙的な方法での文字の生成に焦点を当てる文字ガイダンス手法を提案します。
また、アプローチの堅牢性を高めるために、大規模言語モデル (LLM) によって実行されるキャプション拡張手法も採用しています。
これらの手法を組み合わせることで、最も著名な SV ベンチマーク (Pororo-SV) のさまざまなメトリクスに対する最先端 (SOTA) の結果が得られます。これは、従来の技術と比較して優れた計算複雑性を達成しながら、制約リソースを使用して達成されます。
私たちの定量的結果の妥当性は、人体調査によって裏付けられています。

要約(オリジナル)

Story Visualization (SV) is a challenging generative vision task, that requires both visual quality and consistency between different frames in generated image sequences. Previous approaches either employ some kind of memory mechanism to maintain context throughout an auto-regressive generation of the image sequence, or model the generation of the characters and their background separately, to improve the rendering of characters. On the contrary, we embrace a completely parallel transformer-based approach, exclusively relying on Cross-Attention with past and future captions to achieve consistency. Additionally, we propose a Character Guidance technique to focus on the generation of characters in an implicit manner, by forming a combination of text-conditional and character-conditional logits in the logit space. We also employ a caption-augmentation technique, carried out by a Large Language Model (LLM), to enhance the robustness of our approach. The combination of these methods culminates into state-of-the-art (SOTA) results over various metrics in the most prominent SV benchmark (Pororo-SV), attained with constraint resources while achieving superior computational complexity compared to previous arts. The validity of our quantitative results is supported by a human survey.

arxiv情報

著者 Christos Papadimitriou,Giorgos Filandrianos,Maria Lymperaiou,Giorgos Stamou
発行日 2024-03-13 13:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク