LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

要約

画像生成モデルの最近の進歩により、ユーザー定義の主題 (コンテンツ) とスタイルの両方を使用して、パーソナライズされた画像を作成できるようになりました。
これまでの研究では、対応する低ランク適応パラメータ (LoRA) を最適化ベースの方法で結合することでパーソナライゼーションを実現していましたが、これは計算量が多く、スマートフォンなどのリソースに制約のあるデバイスでのリアルタイム使用には適していませんでした。
これに対処するために、画質を向上させるだけでなく、結合プロセスで $4000\times$ を超える大幅な高速化を実現する方法である LoRA.rar を紹介します。
LoRA.rar は、さまざまなコンテンツ スタイルの LoRA ペアのセットでハイパーネットワークを事前トレーニングし、新しい未確認のコンテンツ スタイル ペアに一般化する効率的なマージ戦略を学習し、高速で高品質のパーソナライゼーションを可能にします。
さらに、コンテンツスタイルの品質に関する既存の評価指標の限界を特定し、より正確な評価のためにマルチモーダル大規模言語モデル (MLLM) を使用する新しいプロトコルを提案します。
私たちの方法は、MLLM 評価と人間による評価によって検証されているように、コンテンツとスタイルの忠実性の両方において現在の最先端技術を大幅に上回っています。

要約(オリジナル)

Recent advancements in image generation models have enabled personalized image creation with both user-defined subjects (content) and styles. Prior works achieved personalization by merging corresponding low-rank adaptation parameters (LoRAs) through optimization-based methods, which are computationally demanding and unsuitable for real-time use on resource-constrained devices like smartphones. To address this, we introduce LoRA.rar, a method that not only improves image quality but also achieves a remarkable speedup of over $4000\times$ in the merging process. LoRA.rar pre-trains a hypernetwork on a diverse set of content-style LoRA pairs, learning an efficient merging strategy that generalizes to new, unseen content-style pairs, enabling fast, high-quality personalization. Moreover, we identify limitations in existing evaluation metrics for content-style quality and propose a new protocol using multimodal large language models (MLLM) for more accurate assessment. Our method significantly outperforms the current state of the art in both content and style fidelity, as validated by MLLM assessments and human evaluations.

arxiv情報

著者 Donald Shenaj,Ondrej Bohdal,Mete Ozay,Pietro Zanuttigh,Umberto Michieli
発行日 2024-12-06 16:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク