Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models

要約

高品質のサンプルを生成する途方もない能力で知られる拡散モデルは、最近、プライバシーリスクをもたらすデータ暗記行動のために懸念を提起しました。
メモリ緩和のための最近の方法は、主に、クロスモーダル生成タスクのテキストモダリティのコンテキスト内で問題に対処し、特定の条件に適用可能性を制限しています。
この論文では、視覚モダリティの観点から拡散モデルの新しい方法を提案します。これは、より一般的であり、暗記を緩和するための基本です。
視覚データをモデルに直接公開すると記憶リスクが高まるため、代わりにプロキシモデルパラメーターを通じてモデルが学習するフレームワークを設計します。
特に、トレーニングデータセットは複数のシャードに分割され、各シャードトレーニングプロキシモデルをトレーニングし、最終モデルを形成するために集約されます。
さらに、トレーニング損失の実用的な分析は、簡単に記憶に残る画像の損失が明らかに低い傾向があることを示しています。
したがって、記憶を避けるために、現在のミニバッチから異常に低い損失値でサンプルをスキップします。
ただし、高品質の画像生成のために十分なトレーニングデータを維持しながら、暗記が発生しやすいサンプルをスキップする必要性のバランスをとることは、重要な課題です。
したがって、これらのサンプルをスキップ過剰から緩和するために、シャード間で非常に記憶に残るサンプルを再配置するIET-AGC+を提案します。
さらに、記憶をさらに減らすために、その損失値に基づいてサンプルを動的に増強します。
4つのデータセットでの広範な実験と分析により、この方法はパフォーマンスを維持しながらメモリ容量を正常に削減することが示されています。
さらに、事前に訓練された拡散モデル、たとえば安定した拡散モデルを微調整し、暗記スコアを46.7 \%減少させ、方法の有効性を示しています。
コードは、https://github.com/liuxiao-guan/iet_agcで入手できます。

要約(オリジナル)

Diffusion models, known for their tremendous ability to generate high-quality samples, have recently raised concerns due to their data memorization behavior, which poses privacy risks. Recent methods for memory mitigation have primarily addressed the issue within the context of the text modality in cross-modal generation tasks, restricting their applicability to specific conditions. In this paper, we propose a novel method for diffusion models from the perspective of visual modality, which is more generic and fundamental for mitigating memorization. Directly exposing visual data to the model increases memorization risk, so we design a framework where models learn through proxy model parameters instead. Specially, the training dataset is divided into multiple shards, with each shard training a proxy model, then aggregated to form the final model. Additionally, practical analysis of training losses illustrates that the losses for easily memorable images tend to be obviously lower. Thus, we skip the samples with abnormally low loss values from the current mini-batch to avoid memorizing. However, balancing the need to skip memorization-prone samples while maintaining sufficient training data for high-quality image generation presents a key challenge. Thus, we propose IET-AGC+, which redistributes highly memorizable samples between shards, to mitigate these samples from over-skipping. Furthermore, we dynamically augment samples based on their loss values to further reduce memorization. Extensive experiments and analysis on four datasets show that our method successfully reduces memory capacity while maintaining performance. Moreover, we fine-tune the pre-trained diffusion models, e.g., Stable Diffusion, and decrease the memorization score by 46.7\%, demonstrating the effectiveness of our method. Code is available in: https://github.com/liuxiao-guan/IET_AGC.

arxiv情報

著者 Xiaoliu Guan,Yu Wu,Huayang Huang,Xiao Liu,Jiaxu Miao,Yi Yang
発行日 2025-02-13 15:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク