要約
テキストから画像への生成モデルは、テキスト プロンプトから忠実度の高い画像を生成できる機能として非常に注目を集めています。
その中でも、Stable Diffusion は、この急速に成長する分野における主要なオープンソース モデルとしての地位を確立しています。
ただし、これらのモデルの微調整は複雑であるため、新しい方法論の統合から体系的な評価に至るまで、複数の課題が生じます。
これらの問題に対処するために、この文書では、幅広い微調整の選択肢を提供するオープンソース ライブラリである LyCORIS (Lora beYond 従来の手法、安定した拡散のためのその他のランク適応実装) [https://github.com/KohakuBlueleaf/LyCORIS] を紹介します。
安定拡散のための方法論。
さらに、さまざまな微調整手法を体系的に評価するための徹底的なフレームワークを紹介します。
このフレームワークは、多様なメトリクス スイートを採用し、ハイパーパラメータの調整やさまざまな概念カテゴリにわたるさまざまなプロンプト タイプでの評価など、微調整の複数の側面を掘り下げています。
この包括的なアプローチを通じて、私たちの研究は、パラメーターの微調整による微妙な影響についての重要な洞察を提供し、最先端の研究と実用化の間のギャップを橋渡しします。
要約(オリジナル)
Text-to-image generative models have garnered immense attention for their ability to produce high-fidelity images from text prompts. Among these, Stable Diffusion distinguishes itself as a leading open-source model in this fast-growing field. However, the intricacies of fine-tuning these models pose multiple challenges from new methodology integration to systematic evaluation. Addressing these issues, this paper introduces LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) [https://github.com/KohakuBlueleaf/LyCORIS], an open-source library that offers a wide selection of fine-tuning methodologies for Stable Diffusion. Furthermore, we present a thorough framework for the systematic assessment of varied fine-tuning techniques. This framework employs a diverse suite of metrics and delves into multiple facets of fine-tuning, including hyperparameter adjustments and the evaluation with different prompt types across various concept categories. Through this comprehensive approach, our work provides essential insights into the nuanced effects of fine-tuning parameters, bridging the gap between state-of-the-art research and practical application.
arxiv情報
著者 | Shin-Ying Yeh,Yu-Guan Hsieh,Zhidong Gao,Bernard B W Yang,Giyeong Oh,Yanmin Gong |
発行日 | 2023-09-26 11:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google