TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision

要約

拡散モデルは、過去数年間の視覚生成の進歩を促進してきました。
ただし、大規模な微調整コストのため、これらの大きなモデルをダウンストリームタスクに適用することはしばしば困難です。
最近、低ランク適応(LORA)が拡散モデルの効率的な調整に適用されています。
残念ながら、同じロラが拡散プロセスの異なるタイムステップに使用されるため、LORAチューニング拡散モデルの機能は限られています。
この問題に取り組むために、2つの重要な微調整段階で、一般的で簡潔なタイムステップマスター(TSM)パラダイムを紹介します。
育成段階(1段)では、異なるタイムステップ間隔で拡散モデルを微調整するために異なるロラを適用します。
これにより、異なる騒音レベルを効果的にキャプチャできるさまざまなタイムステップロラの専門家が生じます。
組み立て段階(2段)では、マルチスケール間隔での専門家のコアコンテキストコラボレーションを介して、タイムステップロラの専門家の新しい非対称混合物を設計します。
各タイムステップについて、ゲーティングなしでコアエキスパートとして最も小さな間隔でタイムステップロラの専門家を活用し、時間依存のゲーティングを持つコンテキストの専門家としてより大きな間隔で専門家を使用します。
したがって、当社のTSMは、最高の間隔で専門家を介してノイズレベルを効果的にモデル化し、他のスケールの専門家からコンテキストを適応的に統合し、拡散モデルの汎用性を高めます。
TSMパラダイムの有効性を示すために、ドメイン適応、予定、およびモデルの蒸留を含む拡散モデルの3つの典型的で一般的なLORA関連のタスクについて広範な実験を行います。
TSMは、さまざまなモデル構造(UNET、DIT、MM-DIT)および視覚データモダリティ(画像、ビデオ)で、これらすべてのタスクで最先端の結果を達成し、その顕著な一般化能力を示しています。

要約(オリジナル)

Diffusion models have driven the advancement of vision generation over the past years. However, it is often difficult to apply these large models in downstream tasks, due to massive fine-tuning cost. Recently, Low-Rank Adaptation (LoRA) has been applied for efficient tuning of diffusion models. Unfortunately, the capabilities of LoRA-tuned diffusion models are limited, since the same LoRA is used for different timesteps of the diffusion process. To tackle this problem, we introduce a general and concise TimeStep Master (TSM) paradigm with two key fine-tuning stages. In the fostering stage (1-stage), we apply different LoRAs to fine-tune the diffusion model at different timestep intervals. This results in different TimeStep LoRA experts that can effectively capture different noise levels. In the assembling stage (2-stage), we design a novel asymmetrical mixture of TimeStep LoRA experts, via core-context collaboration of experts at multi-scale intervals. For each timestep, we leverage TimeStep LoRA expert within the smallest interval as the core expert without gating, and use experts within the bigger intervals as the context experts with time-dependent gating. Consequently, our TSM can effectively model the noise level via the expert in the finest interval, and adaptively integrate contexts from the experts of other scales, boosting the versatility of diffusion models. To show the effectiveness of our TSM paradigm, we conduct extensive experiments on three typical and popular LoRA-related tasks of diffusion models, including domain adaptation, post-pretraining, and model distillation. Our TSM achieves the state-of-the-art results on all these tasks, throughout various model structures (UNet, DiT and MM-DiT) and visual data modalities (Image, Video), showing its remarkable generalization capacity.

arxiv情報

著者 Shaobin Zhuang,Yiwei Guo,Yanbo Ding,Kunchang Li,Xinyuan Chen,Yaohui Wang,Fangyikang Wang,Ying Zhang,Chen Li,Yali Wang
発行日 2025-03-10 15:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク