HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced Diffusion Models

要約

Arbitrary Style Transfer (AST) の目標は、スタイル参照の芸術的特徴を特定の画像/ビデオに注入することです。
既存の方法は通常、スタイルとコンテンツの間のバランスを追求することに重点を置いていますが、柔軟でカスタマイズされたスタイル化結果に対する大きな需要を無視しているため、実際の適用が制限されています。
この重大な問題に対処するために、新しい AST アプローチ、つまり HiCAST が提案されています。これは、意味論的な手がかりのさまざまなソースに従ってスタイル化の結果を明示的にカスタマイズできます。
具体的には、私たちのモデルは潜在拡散モデル (LDM) に基づいて構築されており、LDM の条件としてコンテンツとスタイル インスタンスを吸収するように精巧に設計されています。
LDMにおける多層のスタイル情報や固有知識を連携させることで、出力結果を柔軟に操作できる\textit{スタイルアダプター}を導入しているのが特徴です。
最後に、ビデオ AST を実行するためにモデルをさらに拡張します。
ビデオ拡散モデルのトレーニングには新しい学習目標が活用されており、スタイル化の強度を維持することを前提として、フレーム間の時間的一貫性が大幅に向上します。
定性的および定量的な比較と包括的なユーザー調査により、当社の HiCAST が視覚的に妥当な様式化結果を生成する点で既存の SoTA メソッドよりも優れていることが実証されています。

要約(オリジナル)

The goal of Arbitrary Style Transfer (AST) is injecting the artistic features of a style reference into a given image/video. Existing methods usually focus on pursuing the balance between style and content, whereas ignoring the significant demand for flexible and customized stylization results and thereby limiting their practical application. To address this critical issue, a novel AST approach namely HiCAST is proposed, which is capable of explicitly customizing the stylization results according to various source of semantic clues. In the specific, our model is constructed based on Latent Diffusion Model (LDM) and elaborately designed to absorb content and style instance as conditions of LDM. It is characterized by introducing of \textit{Style Adapter}, which allows user to flexibly manipulate the output results by aligning multi-level style information and intrinsic knowledge in LDM. Lastly, we further extend our model to perform video AST. A novel learning objective is leveraged for video diffusion model training, which significantly improve cross-frame temporal consistency in the premise of maintaining stylization strength. Qualitative and quantitative comparisons as well as comprehensive user studies demonstrate that our HiCAST outperforms the existing SoTA methods in generating visually plausible stylization results.

arxiv情報

著者 Hanzhang Wang,Haoran Wang,Jinze Yang,Zhongrui Yu,Zeke Xie,Lei Tian,Xinyan Xiao,Junjun Jiang,Xianming Liu,Mingming Sun
発行日 2024-01-11 12:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク