Exploring the Frontiers of Animation Video Generation in the Sora Era: Method, Dataset and Benchmark

要約

最近の映画およびテレビ業界では、アニメーションに大きな関心が集まっています。
Sora、Kling、CogVideoX などの高度なビデオ生成モデルは、自然なビデオの生成には成功していますが、アニメーション ビデオの処理においては同様の効果がありません。
アニメーション ビデオの生成を評価することも、物理法則に違反し、モーションが誇張されている独特のアーティスト スタイルのため、大きな課題です。
この論文では、データ処理パイプライン、制御可能な生成モデル、評価データセットを含む、アニメーション ビデオ生成用に設計された包括的なシステム AniSora を紹介します。
10M を超える高品質データを含むデータ処理パイプラインによってサポートされているこの生成モデルには、画像からビデオへの生成、フレーム補間、ローカライズされた画像ガイド付きアニメーションなどの主要なアニメーション制作機能を容易にする時空間マスク モジュールが組み込まれています。
また、948 のさまざまなアニメーションビデオの評価ベンチマークを収集し、VBench と人間による二重盲検テストでの評価により、キャラクターとモーションの一貫性が実証され、アニメーションビデオ生成において最先端の結果を達成しています。
また、アニメーション ビデオ生成用に特別に開発された指標を使用して、948 のさまざまなアニメーション ビデオの評価ベンチマークも収集します。
モデルアクセス API と評価ベンチマークは一般公開されます。

要約(オリジナル)

Animation has gained significant interest in the recent film and TV industry. Despite the success of advanced video generation models like Sora, Kling, and CogVideoX in generating natural videos, they lack the same effectiveness in handling animation videos. Evaluating animation video generation is also a great challenge due to its unique artist styles, violating the laws of physics and exaggerated motions. In this paper, we present a comprehensive system, AniSora, designed for animation video generation, which includes a data processing pipeline, a controllable generation model, and an evaluation dataset. Supported by the data processing pipeline with over 10M high-quality data, the generation model incorporates a spatiotemporal mask module to facilitate key animation production functions such as image-to-video generation, frame interpolation, and localized image-guided animation. We also collect an evaluation benchmark of 948 various animation videos, the evaluation on VBench and human double-blind test demonstrates consistency in character and motion, achieving state-of-the-art results in animation video generation. %We also collect an evaluation benchmark of 948 various animation videos, with specifically developed metrics for animation video generation. Our model access API and evaluation benchmark will be publicly available.

arxiv情報

著者 Yudong Jiang,Baohan Xu,Siqian Yang,Mingyu Yin,Jing Liu,Chao Xu,Siqi Wang,Yidi Wu,Bingwen Zhu,Jixuan Xu,Yue Zhang,Jinlong Hou,Huyang Sun
発行日 2024-12-13 16:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR パーマリンク