Is This Loss Informative? Faster Text-to-Image Customization by Tracking Objective Dynamics

要約

テキストから画像への生成モデルは、画像合成における進化の次のステップを表し、結果に対する柔軟かつきめ細かい制御を実現する自然な方法を提供します。
新しい研究分野の 1 つは、大規模なテキストから画像へのモデルをより小さなデータセットや新しい視覚概念に迅速に適応させることです。
ただし、効率的な適応方法の多くはトレーニング時間が長いため、実際の応用が制限され、研究実験が遅くなり、GPU リソースが過剰に消費されます。
この研究では、一般的なテキストから画像へのパーソナライゼーション手法 (Textual Inversion や DreamBooth など) のトレーニング ダイナミクスを研究し、その高速化を目指します。
ほとんどの概念は初期段階で学習され、その後品質が向上しないことが観察されていますが、標準モデルの収束メトリクスはそれを示していません。
代わりに、すべてのトレーニング反復の固定入力セットで通常のトレーニング目標を計算することだけを必要とする、単純なドロップイン早期停止基準を提案します。
さまざまな概念と 3 つのパーソナライゼーション手法を対象とした安定拡散に関する実験では、品質を大幅に低下させることなく適応を最大 8 倍高速化するという、当社のアプローチの競争力のあるパフォーマンスを実証しました。

要約(オリジナル)

Text-to-image generation models represent the next step of evolution in image synthesis, offering a natural way to achieve flexible yet fine-grained control over the result. One emerging area of research is the fast adaptation of large text-to-image models to smaller datasets or new visual concepts. However, many efficient methods of adaptation have a long training time, which limits their practical applications, slows down research experiments, and spends excessive GPU resources. In this work, we study the training dynamics of popular text-to-image personalization methods (such as Textual Inversion or DreamBooth), aiming to speed them up. We observe that most concepts are learned at early stages and do not improve in quality later, but standard model convergence metrics fail to indicate that. Instead, we propose a simple drop-in early stopping criterion that only requires computing the regular training objective on a fixed set of inputs for all training iterations. Our experiments on Stable Diffusion for a range of concepts and for three personalization methods demonstrate the competitive performance of our approach, making adaptation up to 8 times faster with no significant drops in quality.

arxiv情報

著者 Anton Voronov,Mikhail Khoroshikh,Artem Babenko,Max Ryabinin
発行日 2023-06-27 09:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク