要約
ビジュアル・ナラティブ生成は、テキスト・ナラティブを、テキストの内容を説明する画像のシーケンスに変換する。しかしながら、入力テキストに忠実で、生成された画像間で自己整合的な視覚的物語を生成することは、物語を計画するために使用される知識制約がないため、未解決の課題のままである。本研究では、この課題を解決するために、新しいベンチマークであるVinaBenchを提案する。このベンチマークは、視覚的ストーリーテリングの暗黙の戦略を学習するための体系的な足場を提供することで、視覚的ストーリーテリングのサンプルの基礎となる常識的制約と談話制約を注釈する。組み込まれた物語制約に基づき、我々はさらに、生成された物語画像の一貫性と、入力されたテキスト物語との世代の整合を綿密に評価するための新しいメトリクスを提案する。3つの生成視覚モデルにわたる我々の結果は、VinaBenchの知識制約を用いた学習が、生成された視覚的物語の忠実性と結束性を効果的に改善することを示している。
要約(オリジナル)
Visual narrative generation transforms textual narratives into sequences of images illustrating the content of the text. However, generating visual narratives that are faithful to the input text and self-consistent across generated images remains an open challenge, due to the lack of knowledge constraints used for planning the stories. In this work, we propose a new benchmark, VinaBench, to address this challenge. Our benchmark annotates the underlying commonsense and discourse constraints in visual narrative samples, offering systematic scaffolds for learning the implicit strategies of visual storytelling. Based on the incorporated narrative constraints, we further propose novel metrics to closely evaluate the consistency of generated narrative images and the alignment of generations with the input textual narrative. Our results across three generative vision models demonstrate that learning with VinaBench’s knowledge constraints effectively improves the faithfulness and cohesion of generated visual narratives.
arxiv情報
| 著者 | Silin Gao,Sheryl Mathew,Li Mi,Sepideh Mamooler,Mengjie Zhao,Hiromi Wakaki,Yuki Mitsufuji,Syrielle Montariol,Antoine Bosselut |
| 発行日 | 2025-04-03 09:28:19+00:00 |
| arxivサイト | arxiv_id(pdf) |