A LoRA is Worth a Thousand Pictures

要約

拡散モデルとパラメータ効率の良い微調整 (PEFT) の最近の進歩により、テキストから画像への生成とカスタマイズが広く利用できるようになり、低ランク適応 (LoRA) により最小限のデータと計算を使用してアーティストのスタイルや主題を複製できるようになりました。
この論文では、LoRA の重みと芸術的スタイルの関係を検証し、追加の画像生成や元のトレーニング セットの知識を必要とせずに、LoRA の重みだけでスタイルの効果的な記述子として機能できることを実証します。
私たちの調査結果は、LoRA の重み付けが、CLIP や DINO などの従来の事前トレーニングされた特徴と比較して、芸術的スタイルのクラスタリングにおいて優れたパフォーマンスを生み出すことを示しており、LoRA ベースの埋め込みと従来の画像ベースの埋め込みの間には、定性的および定量的に観察された強い構造的類似性があります。
私たちは、増大するカスタマイズされたモデルのコレクションに対するさまざまな検索シナリオを特定し、トレーニング画像の知識が利用できず追加の生成が必要な現実世界の設定において、私たちのアプローチがより正確な検索を可能にすることを示します。
最後に、ゼロショット LoRA 微調整やモデル アトリビューションなど、将来の可能性のあるアプリケーションについて説明します。

要約(オリジナル)

Recent advances in diffusion models and parameter-efficient fine-tuning (PEFT) have made text-to-image generation and customization widely accessible, with Low Rank Adaptation (LoRA) able to replicate an artist’s style or subject using minimal data and computation. In this paper, we examine the relationship between LoRA weights and artistic styles, demonstrating that LoRA weights alone can serve as an effective descriptor of style, without the need for additional image generation or knowledge of the original training set. Our findings show that LoRA weights yield better performance in clustering of artistic styles compared to traditional pre-trained features, such as CLIP and DINO, with strong structural similarities between LoRA-based and conventional image-based embeddings observed both qualitatively and quantitatively. We identify various retrieval scenarios for the growing collection of customized models and show that our approach enables more accurate retrieval in real-world settings where knowledge of the training images is unavailable and additional generation is required. We conclude with a discussion on potential future applications, such as zero-shot LoRA fine-tuning and model attribution.

arxiv情報

著者 Chenxi Liu,Towaki Takikawa,Alec Jacobson
発行日 2024-12-16 18:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク