要約
限られた数のサンプルで生成モデルをトレーニングするのは困難な作業です。
現在の方法は、主に少数ショット モデルの適応に依存してネットワークをトレーニングします。
ただし、データが非常に限られている (10 未満) シナリオでは、生成ネットワークはオーバーフィットする傾向があり、コンテンツの劣化が発生します。
これらの問題に対処するために、方向性分布一貫性損失を伴う少数ショット拡散モデルを融合した新しい段階的コンテンツを提案します。これは、拡散モデルの異なるトレーニング段階で異なる学習目標をターゲットとしています。
具体的には、t が大きい場合にはモデルがコンテンツとスタイルの情報を学習し、t が小さい場合にはターゲット ドメインの局所的な詳細を学習できるように、段階的なコンテンツの融合を使用した段階的なトレーニング戦略を設計します。これにより、コンテンツ、スタイル、およびコンテンツのキャプチャが向上します。
地元の詳細。
さらに、生成された分布とソース分布の間の一貫性を従来の方法よりも効率的かつ安定的に保証する新しい方向性分布一貫性損失を導入し、モデルの過剰適合を防ぎます。
最後に、ドメイン適応時の構造の一貫性を高めるクロスドメイン構造ガイダンス戦略を提案します。
理論分析、定性的および定量的実験により、最先端の方法と比較して、少数ショットの生成モデル適応タスクにおける私たちのアプローチの優位性が実証されています。
ソース コードは https://github.com/sjtuplayer/few-shot-diffusion から入手できます。
要約(オリジナル)
Training a generative model with limited number of samples is a challenging task. Current methods primarily rely on few-shot model adaption to train the network. However, in scenarios where data is extremely limited (less than 10), the generative network tends to overfit and suffers from content degradation. To address these problems, we propose a novel phasic content fusing few-shot diffusion model with directional distribution consistency loss, which targets different learning objectives at distinct training stages of the diffusion model. Specifically, we design a phasic training strategy with phasic content fusion to help our model learn content and style information when t is large, and learn local details of target domain when t is small, leading to an improvement in the capture of content, style and local details. Furthermore, we introduce a novel directional distribution consistency loss that ensures the consistency between the generated and source distributions more efficiently and stably than the prior methods, preventing our model from overfitting. Finally, we propose a cross-domain structure guidance strategy that enhances structure consistency during domain adaptation. Theoretical analysis, qualitative and quantitative experiments demonstrate the superiority of our approach in few-shot generative model adaption tasks compared to state-of-the-art methods. The source code is available at: https://github.com/sjtuplayer/few-shot-diffusion.
arxiv情報
著者 | Teng Hu,Jiangning Zhang,Liang Liu,Ran Yi,Siqi Kou,Haokun Zhu,Xu Chen,Yabiao Wang,Chengjie Wang,Lizhuang Ma |
発行日 | 2023-09-07 14:14:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google