Learning to Model Multimodal Semantic Alignment for Story Visualization

要約

ストーリー ビジュアライゼーションの目的は、一連の画像を生成して、複数の文からなるストーリーの各文を説明することです。画像は現実的で、動的なシーンやキャラクター全体でグローバルな一貫性を維持する必要があります。
現在の作品は、固定されたアーキテクチャと入力モダリティの多様性のために、意味の不整合の問題に直面しています。
この問題に対処するために、GAN ベースの生成モデルでそれらのセマンティック レベルを一致させることを学習することにより、テキストと画像表現の間のセマンティック アラインメントを調査します。
より具体的には、さまざまなセマンティック深度を動的に探索し、一致するセマンティック レベルで異なるモーダル情報を融合するための学習に従って動的相互作用を導入します。
さまざまなデータセットでの広範な実験は、最先端の方法と比較して、セグメンテーション マスクも補助キャプション ネットワークも使用しない、画質とストーリーの一貫性に関するアプローチの改善を示しています。

要約(オリジナル)

Story visualization aims to generate a sequence of images to narrate each sentence in a multi-sentence story, where the images should be realistic and keep global consistency across dynamic scenes and characters. Current works face the problem of semantic misalignment because of their fixed architecture and diversity of input modalities. To address this problem, we explore the semantic alignment between text and image representations by learning to match their semantic levels in the GAN-based generative model. More specifically, we introduce dynamic interactions according to learning to dynamically explore various semantic depths and fuse the different-modal information at a matched semantic level, which thus relieves the text-image semantic misalignment problem. Extensive experiments on different datasets demonstrate the improvements of our approach, neither using segmentation masks nor auxiliary captioning networks, on image quality and story consistency, compared with state-of-the-art methods.

arxiv情報

著者 Bowen Li,Thomas Lukasiewicz
発行日 2022-11-14 11:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク