AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

要約

最近のAI生成コンテンツ(AIGC)の進歩により、アニメーション制作が大幅に加速している。魅力的なアニメーションを制作するためには、物語スクリプトとキャラクターリファレンスを備えた首尾一貫したマルチショットビデオクリップを生成することが不可欠である。しかし、既存の公開データセットは、主に現実世界のシナリオとグローバルな記述に焦点を当てており、一貫したキャラクターガイダンスのための参照画像が不足しています。このギャップを埋めるために、リファレンスガイド付きマルチショットアニメーションデータセットであるAnimeShooterを紹介する。AnimeShooterは、包括的な階層的アノテーションと、自動化されたパイプラインによるショット間の強力な視覚的一貫性を特徴としています。ストーリーレベルのアノテーションは、ストーリーの概要、主要シーン、メインキャラクターのプロフィールを参照画像とともに提供します。一方、ショットレベルのアノテーションは、ストーリーを連続するショットに分解し、それぞれにシーン、キャラクター、物語と説明的なビジュアルキャプションの両方をアノテーションします。さらに、専用のサブセットであるAnimeShooter-audioは、各ショットの同期されたオーディオトラック、オーディオ説明、音源を提供します。AnimeShooterの有効性を実証し、参照ガイド付きマルチショットビデオ生成タスクのベースラインを確立するために、マルチモーダル大規模言語モデル(MLLM)とビデオ拡散モデルを活用したAnimeShooterGenを紹介します。参照画像と以前に生成されたショットはまずMLLMによって処理され、参照とコンテキストの両方を意識した表現が生成される。実験結果は、AnimeShooterで学習されたモデルが、優れたクロスショットの視覚的一貫性と参照視覚ガイダンスへの準拠を達成することを示しており、コヒーレントなアニメーションビデオ生成のためのデータセットの価値を強調している。

要約(オリジナル)

Recent advances in AI-generated content (AIGC) have significantly accelerated animation production. To produce engaging animations, it is essential to generate coherent multi-shot video clips with narrative scripts and character references. However, existing public datasets primarily focus on real-world scenarios with global descriptions, and lack reference images for consistent character guidance. To bridge this gap, we present AnimeShooter, a reference-guided multi-shot animation dataset. AnimeShooter features comprehensive hierarchical annotations and strong visual consistency across shots through an automated pipeline. Story-level annotations provide an overview of the narrative, including the storyline, key scenes, and main character profiles with reference images, while shot-level annotations decompose the story into consecutive shots, each annotated with scene, characters, and both narrative and descriptive visual captions. Additionally, a dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each shot, along with audio descriptions and sound sources. To demonstrate the effectiveness of AnimeShooter and establish a baseline for the reference-guided multi-shot video generation task, we introduce AnimeShooterGen, which leverages Multimodal Large Language Models (MLLMs) and video diffusion models. The reference image and previously generated shots are first processed by MLLM to produce representations aware of both reference and context, which are then used as the condition for the diffusion model to decode the subsequent shot. Experimental results show that the model trained on AnimeShooter achieves superior cross-shot visual consistency and adherence to reference visual guidance, which highlight the value of our dataset for coherent animated video generation.

arxiv情報

著者 Lu Qiu,Yizhuo Li,Yuying Ge,Yixiao Ge,Ying Shan,Xihui Liu
発行日 2025-06-03 17:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク