JieHua Paintings Style Feature Extracting Model using Stable Diffusion with ControlNet

要約

この研究は、Jiehua の文体的特徴を抽出するための新しいアプローチ、つまり、ControlNet を使用した微調整安定拡散モデル (FSDMC) を利用して、アーティストの Jiehua から描写技術を洗練することを提案します。
FSDMC のトレーニング データは、インターネットから収集されたオープンソースの Jiehua アーティストの作品に基づいており、その後 (オリジナルの画像、Canny Edge 機能、テキスト プロンプト) の形式で手動で構築されました。
この論文で特定された最適なハイパーパラメータを採用することにより、FSDMC が別の主流スタイルの転送モデルである CycleGAN よりも優れたパフォーマンスを発揮することが観察されました。
FSDMC はデータセットで 3.27 の FID を達成し、専門家の評価の点でも CycleGAN を上回っています。
これは、Jiehua のスタイル特徴を抽出する際のモデルの高い有効性を実証するだけでなく、元の事前トレーニングされたセマンティック情報も保存します。
この研究の結果は、適切なハイパーパラメータを備えた FSDMC の適用により、特に Jiehua のコンテキスト内で、伝統的な芸術スタイルの移行タスクの分野における安定拡散モデルの有効性を高めることができることを示唆しています。

要約(オリジナル)

This study proposes a novel approach to extract stylistic features of Jiehua: the utilization of the Fine-tuned Stable Diffusion Model with ControlNet (FSDMC) to refine depiction techniques from artists’ Jiehua. The training data for FSDMC is based on the opensource Jiehua artist’s work collected from the Internet, which were subsequently manually constructed in the format of (Original Image, Canny Edge Features, Text Prompt). By employing the optimal hyperparameters identified in this paper, it was observed FSDMC outperforms CycleGAN, another mainstream style transfer model. FSDMC achieves FID of 3.27 on the dataset and also surpasses CycleGAN in terms of expert evaluation. This not only demonstrates the model’s high effectiveness in extracting Jiehua’s style features, but also preserves the original pre-trained semantic information. The findings of this study suggest that the application of FSDMC with appropriate hyperparameters can enhance the efficacy of the Stable Diffusion Model in the field of traditional art style migration tasks, particularly within the context of Jiehua.

arxiv情報

著者 Yujia Gu,Haofeng Li,Xinyu Fang,Zihan Peng,Yinan Peng
発行日 2024-08-21 16:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク