SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation

要約

近年、拡散モデルの開発により、画像生成タスクとビデオ生成タスクが大幅に進歩し、安定した拡散シリーズのような事前に訓練されたモデルが重要な役割を果たしています。
重要でないパラメーターを削除することにより、大規模な訓練を受けたモデルを明るくするモデルの剪定に触発され、これらの効果的なパラメーターを最大限に活用し、新しいタスク指定機能を備えた事前に訓練されたモデルを有効にするための新しいモデルの微調整方法を提案します。
この作業では、最初に訓練を受けた拡散モデルにおけるパラメーターの重要性を調査し、絶対値によるパラメーターの最小10%から20%が生成プロセスに寄与しないことを発見します。
この観察に基づいて、これらの一時的に効果のないパラメーターを再利用するSARAと呼ばれる方法を提案し、タスク固有の知識を学習するためにスパース重量マトリックスを最適化することに相当します。
過剰適合を緩和するために、効率的な微調整のための原子力標準ベースの低ランクスパーストレーニングスキームを提案します。
さらに、再訓練/凝集したパラメーターを最大限に活用するために、新しいプログレッシブパラメーター調整戦略を設計します。
最後に、微調整中のメモリコストを大幅に削減する新しい非構造的なバックプロパゲーション戦略を提案します。
私たちの方法は、下流のアプリケーションでの事前に訓練されたモデルの生成能力を強化し、モデルの一般化能力を維持する際にLORAのような従来の微調整方法を上回ります。
SDモデルでの微調整実験を通じてアプローチを検証し、大幅な改善を示しています。
SARAはまた、効率的な実装のために単一のコード変更のみを必要とする実用的な利点を提供し、既存の方法とシームレスに互換性があります。

要約(オリジナル)

In recent years, the development of diffusion models has led to significant progress in image and video generation tasks, with pre-trained models like the Stable Diffusion series playing a crucial role. Inspired by model pruning which lightens large pre-trained models by removing unimportant parameters, we propose a novel model fine-tuning method to make full use of these ineffective parameters and enable the pre-trained model with new task-specified capabilities. In this work, we first investigate the importance of parameters in pre-trained diffusion models, and discover that the smallest 10% to 20% of parameters by absolute values do not contribute to the generation process. Based on this observation, we propose a method termed SaRA that re-utilizes these temporarily ineffective parameters, equating to optimizing a sparse weight matrix to learn the task-specific knowledge. To mitigate overfitting, we propose a nuclear-norm-based low-rank sparse training scheme for efficient fine-tuning. Furthermore, we design a new progressive parameter adjustment strategy to make full use of the re-trained/finetuned parameters. Finally, we propose a novel unstructural backpropagation strategy, which significantly reduces memory costs during fine-tuning. Our method enhances the generative capabilities of pre-trained models in downstream applications and outperforms traditional fine-tuning methods like LoRA in maintaining model’s generalization ability. We validate our approach through fine-tuning experiments on SD models, demonstrating significant improvements. SaRA also offers a practical advantage that requires only a single line of code modification for efficient implementation and is seamlessly compatible with existing methods.

arxiv情報

著者 Teng Hu,Jiangning Zhang,Ran Yi,Hongrui Huang,Yabiao Wang,Lizhuang Ma
発行日 2025-04-02 14:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク