要約
高品質のアニメーション ステッカーには通常、透明なチャネルが含まれていますが、現在のビデオ生成モデルでは無視されることがよくあります。
きめの細かいアニメーション透明チャネルを生成するために、既存の方法はビデオ マッティング アルゴリズムと拡散ベースのアルゴリズムに大別できます。
ビデオ マットに基づく方法は、ステッカーの半オープン領域を処理する際のパフォーマンスが低く、拡散ベースの方法は単一の画像をモデリングするためによく使用されます。これにより、アニメーション ステッカーをモデリングするときに局所的なちらつきが発生します。
この論文では、まず、暗黙的なレイアウト蒸留を通じてアニメーション透明チャネルを生成する ILDiff 手法を提案します。これは、既存の手法における半オープンエリアの崩壊と時間情報の考慮なしの問題を解決します。
次に、関連フィールドにデータ サポートを提供するために、透明チャネルを持つ 0.32M の高品質サンプルを含む透明アニメーション ステッカー データセット (TASD) を作成します。
広範な実験により、ILDiff は、Matting Anything や Layer Diffusion などの他の方法と比較して、より細かく滑らかな透明なチャネルを生成できることが実証されています。
コードとデータセットはリンク https://xiaoyuan1996.github.io でリリースされます。
要約(オリジナル)
High-quality animated stickers usually contain transparent channels, which are often ignored by current video generation models. To generate fine-grained animated transparency channels, existing methods can be roughly divided into video matting algorithms and diffusion-based algorithms. The methods based on video matting have poor performance in dealing with semi-open areas in stickers, while diffusion-based methods are often used to model a single image, which will lead to local flicker when modeling animated stickers. In this paper, we firstly propose an ILDiff method to generate animated transparent channels through implicit layout distillation, which solves the problems of semi-open area collapse and no consideration of temporal information in existing methods. Secondly, we create the Transparent Animated Sticker Dataset (TASD), which contains 0.32M high-quality samples with transparent channel, to provide data support for related fields. Extensive experiments demonstrate that ILDiff can produce finer and smoother transparent channels compared to other methods such as Matting Anything and Layer Diffusion. Our code and dataset will be released at link https://xiaoyuan1996.github.io.
arxiv情報
著者 | Ting Zhang,Zhiqiang Yuan,Yeshuang Zhu,Jinchao Zhang |
発行日 | 2024-12-30 12:27:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google