Stylus: Automatic Adapter Selection for Diffusion Models

要約

より多くのデータやパラメーターを使用してベース モデルをスケーリングするだけでなく、微調整されたアダプターは、コストを削減して忠実度の高いカスタム イメージを生成する代替方法を提供します。
そのため、アダプターはオープンソース コミュニティで広く採用されており、10 万を超えるアダプターのデータベースが蓄積されていますが、そのほとんどは高度にカスタマイズされており、説明が不十分です。
このペーパーでは、アダプターを構成することによるパフォーマンスの向上を強調した最近の研究に基づいて、プロンプトを関連するアダプターのセットに一致させる問題について検討します。
プロンプトのキーワードに基づいてタスク固有のアダプターを効率的に選択し、自動的に作成する Stylus を紹介します。
Stylus は、最初に改善された説明と埋め込みでアダプターを要約し、関連するアダプターを取得し、次にプロンプ​​トにどの程度適合するかをチェックすることで、プロンプトのキーワードに基づいてアダプターをさらに組み立てる 3 段階のアプローチを概説します。
Stylus を評価するために、事前に計算されたアダプターの埋め込みを備えた 75,000 個のアダプターを特徴とする厳選されたデータセットである StylusDocs を開発しました。
人気の安定拡散チェックポイントに関する評価では、Stylus はより優れた CLIP-FID パレート効率を達成し、評価者として人間とマルチモーダル モデルを使用した場合、基本モデルよりも 2 倍好まれています。
詳細については、stylus-diffusion.github.io を参照してください。

要約(オリジナル)

Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt’s keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts’ keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.

arxiv情報

著者 Michael Luo,Justin Wong,Brandon Trabucco,Yanping Huang,Joseph E. Gonzalez,Zhifeng Chen,Ruslan Salakhutdinov,Ion Stoica
発行日 2024-04-29 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR, cs.LG パーマリンク