要約
特定の物語および参照画像に合わせて視覚的に一貫した画像のシーケンスを生成することを目的としたストーリーの視覚化は、生成モデルの最近の進歩で大きな進歩を遂げました。
実際のシナリオでストーリー視覚化フレームワークのパフォーマンスをさらに強化するために、包括的な評価ベンチマークであるVistoryBenchを紹介します。
さまざまなストーリータイプや芸術スタイルを含む多様なデータセットを収集し、異なるプロット(コメディ、ホラーなど)や視覚的な美学(アニメ、3Dレンダリングなど)などの複数の次元でモデルが評価されるようにします。
VistoryBenchは、物語の構造と視覚的要素のバランスをとるために慎重にキュレーションされており、単一の主人公と複数の主人公がいるストーリーを特徴として、モデルのキャラクターの一貫性を維持する能力をテストします。
さらに、複雑なプロットと複雑な世界構築が含まれており、正確なビジュアルを生成するモデルに挑戦します。
包括的な比較を確保するために、当社のベンチマークには、重要な側面を評価する幅広い評価メトリックが組み込まれています。
この構造化された多面的なフレームワークにより、研究者は異なるモデルの長所と短所の両方を徹底的に特定し、ターゲットの改善を促進することができます。
要約(オリジナル)
Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models’ ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.
arxiv情報
著者 | Cailin Zhuang,Ailin Huang,Wei Cheng,Jingwei Wu,Yaoqi Hu,Jiaqi Liao,Zhewei Huang,Hongyuan Wang,Xinyao Liao,Weiwei Cai,Hengyuan Xu,Xuanyang Zhang,Xianfang Zeng,Gang Yu,Chi Zhang |
発行日 | 2025-05-30 17:58:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google