要約
テキストから画像への生成モデルは、画像合成における進化の次のステップを表し、結果を柔軟かつきめ細かく制御する自然な手段を提供します。
新たな研究分野の 1 つは、大規模なテキストから画像へのモデルを、より小さなデータセットまたは新しいビジュアル コンセプトに迅速に適応させることです。
ただし、テキスト反転と呼ばれる最も効率的な適応方法には、トレーニング時間が長いという既知の制限があり、実際のアプリケーションが制限され、研究のための実験時間が長くなります。
この作業では、テキスト反転のトレーニング ダイナミクスを研究し、高速化を目指します。
ほとんどの概念は初期段階で学習され、後で品質が向上しないことがわかりますが、標準モデルの収束メトリックはそれを示していません.
代わりに、すべてのトレーニング反復について同じ入力でテキスト反転損失を計算するだけでよい単純な早期停止基準を提案します。
93 の概念に対する潜在拡散モデルと安定拡散モデルの両方での実験では、品質を大幅に低下させることなく、適応を最大 15 倍高速化し、この方法の競争力のあるパフォーマンスを示しています。
要約(オリジナル)
Text-to-image generation models represent the next step of evolution in image synthesis, offering natural means of flexible yet fine-grained control over the result. One emerging area of research is the rapid adaptation of large text-to-image models to smaller datasets or new visual concepts. However, the most efficient method of adaptation, called textual inversion, has a known limitation of long training time, which both restricts practical applications and increases the experiment time for research. In this work, we study the training dynamics of textual inversion, aiming to speed it up. We observe that most concepts are learned at early stages and do not improve in quality later, but standard model convergence metrics fail to indicate that. Instead, we propose a simple early stopping criterion that only requires computing the textual inversion loss on the same inputs for all training iterations. Our experiments on both Latent Diffusion and Stable Diffusion models for 93 concepts demonstrate the competitive performance of our method, speeding adaptation up to 15 times with no significant drops in quality.
arxiv情報
著者 | Anton Voronov,Mikhail Khoroshikh,Artem Babenko,Max Ryabinin |
発行日 | 2023-02-09 18:49:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google