VinaBench: Benchmark for Faithful and Consistent Visual Narratives

要約

視覚的な物語の生成は、テキストの物語をテキストの内容を示す画像のシーケンスに変換します。
ただし、ストーリーの計画に使用される知識の制約がないため、入力テキストに忠実であり、生成された画像全体で自己整合性のある視覚的な物語を生成することは、オープンな挑戦のままです。
この作業では、この課題に対処するために、新しいベンチマークであるVinabenchを提案します。
私たちのベンチマークは、視覚的な物語サンプルの根底にある常識と談話の制約に注釈を付け、視覚的なストーリーテリングの暗黙の戦略を学ぶための体系的な足場を提供します。
組み込まれた物語の制約に基づいて、さらに新しいメトリックを提案して、生成された物語画像の一貫性と入力テキストの物語との世代の整合性を綿密に評価します。
3つの生成ビジョンモデルにわたる結果は、Vinabenchの知識の制約を使用して学習することで、生成された視覚的な物語の忠実さと結束が効果的に改善されることを示しています。

要約(オリジナル)

Visual narrative generation transforms textual narratives into sequences of images illustrating the content of the text. However, generating visual narratives that are faithful to the input text and self-consistent across generated images remains an open challenge, due to the lack of knowledge constraints used for planning the stories. In this work, we propose a new benchmark, VinaBench, to address this challenge. Our benchmark annotates the underlying commonsense and discourse constraints in visual narrative samples, offering systematic scaffolds for learning the implicit strategies of visual storytelling. Based on the incorporated narrative constraints, we further propose novel metrics to closely evaluate the consistency of generated narrative images and the alignment of generations with the input textual narrative. Our results across three generative vision models demonstrate that learning with VinaBench’s knowledge constraints effectively improves the faithfulness and cohesion of generated visual narratives.

arxiv情報

著者 Silin Gao,Sheryl Mathew,Li Mi,Sepideh Mamooler,Mengjie Zhao,Hiromi Wakaki,Yuki Mitsufuji,Syrielle Montariol,Antoine Bosselut
発行日 2025-03-28 09:18:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク