要約
既製のグラフィック アート形式である Clipart は、視覚的なコンテンツを説明する便利で効率的な方法を提供します。
静的なクリップアート画像をモーション シーケンスに変換する従来のワークフローは、リギング、キー アニメーション、中間処理などの複雑な手順が多数含まれ、手間と時間がかかります。
テキストからビデオへの生成における最近の進歩は、この問題を解決する大きな可能性を秘めています。
それにもかかわらず、テキストからビデオへの生成モデルを直接適用すると、多くの場合、クリップアート画像の視覚的アイデンティティを保持したり、漫画スタイルのモーションを生成したりするのに苦労し、満足のいくアニメーション結果が得られません。
このペーパーでは、テキストからビデオへの事前変換によって、静止クリップアート画像を高品質のモーション シーケンスに変換するシステムである AniClipart を紹介します。
漫画スタイルのスムーズなモーションを生成するには、まずクリップアート イメージのキーポイント上にベジエ曲線をモーション正則化の形式として定義します。
次に、ビデオ スコア蒸留サンプリング (VSDS) 損失を最適化することで、キーポイントの動きの軌跡を、提供されたテキスト プロンプトに合わせます。これにより、事前トレーニングされたテキストからビデオへの拡散モデル内の自然な動きについての十分な知識がエンコードされます。
微分可能な As-Rigid-As-Possible 形状変形アルゴリズムを使用すると、変形の剛性を維持しながら、この方法をエンドツーエンドで最適化できます。
実験結果は、提案された AniClipart が、テキストとビデオの位置合わせ、視覚的同一性の保持、およびモーションの一貫性の点で、既存の画像からビデオへの生成モデルよりも常に優れていることを示しています。
さらに、AniClipart を適応させて、トポロジの変更を可能にするレイヤー化アニメーションなど、より幅広いアニメーション形式を生成することによって、AniClipart の多用途性を紹介します。
要約(オリジナル)
Clipart, a pre-made graphic art form, offers a convenient and efficient way of illustrating visual content. Traditional workflows to convert static clipart images into motion sequences are laborious and time-consuming, involving numerous intricate steps like rigging, key animation and in-betweening. Recent advancements in text-to-video generation hold great potential in resolving this problem. Nevertheless, direct application of text-to-video generation models often struggles to retain the visual identity of clipart images or generate cartoon-style motions, resulting in unsatisfactory animation outcomes. In this paper, we introduce AniClipart, a system that transforms static clipart images into high-quality motion sequences guided by text-to-video priors. To generate cartoon-style and smooth motion, we first define B\'{e}zier curves over keypoints of the clipart image as a form of motion regularization. We then align the motion trajectories of the keypoints with the provided text prompt by optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes adequate knowledge of natural motion within a pretrained text-to-video diffusion model. With a differentiable As-Rigid-As-Possible shape deformation algorithm, our method can be end-to-end optimized while maintaining deformation rigidity. Experimental results show that the proposed AniClipart consistently outperforms existing image-to-video generation models, in terms of text-video alignment, visual identity preservation, and motion consistency. Furthermore, we showcase the versatility of AniClipart by adapting it to generate a broader array of animation formats, such as layered animation, which allows topological changes.
arxiv情報
著者 | Ronghuan Wu,Wanchao Su,Kede Ma,Jing Liao |
発行日 | 2024-04-18 17:24:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google