Iterative Object Count Optimization for Text-to-image Diffusion Models

要約

私たちは、指定された数のオブジェクトを正確に生成するという、テキストから画像へのモデルにおける永続的な課題に取り組みます。
画像とテキストのペアから学習する現在のモデルは、トレーニング データでは特定のオブジェクトについてすべての可能な数のオブジェクトを表現できないため、本質的にカウントに苦労します。
これを解決するために、オブジェクトの可能性を集約する計数モデルから導出された計数損失に基づいて、生成された画像を最適化することを提案します。
すぐに使える計数モデルの採用は 2 つの理由から困難です。1 つ目は、モデルには、オブジェクトの視点に応じて変化する潜在的な集計のスケーリング ハイパーパラメータが必要であること、2 つ目は、分類子ガイダンス技術には、動作する修正されたモデルが必要であることです。
ノイズの多い中間拡散ステップについて。
これらの課題に対処するために、テキスト コンディショニングの埋め込みを変更し、ハイパーパラメータを動的に調整しながら、推論画像の精度を向上させる反復オンライン トレーニング モードを提案します。
私たちの方法には 3 つの重要な利点があります。(i) 検出モデルに基づいて導出不可能な計数技術を考慮できること、(ii) 計数技術と画像生成方法への迅速な変更を容易にするゼロショットのプラグアンドプレイ ソリューションであること、
(iii) 最適化されたカウント トークンを再利用して、追加の最適化を行わずに正確な画像を生成できます。
さまざまなオブジェクトの生成を評価し、精度の大幅な向上を示しました。
プロジェクト ページは https://ozzafar.github.io/count_token から入手できます。

要約(オリジナル)

We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\’s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.

arxiv情報

著者 Oz Zafar,Lior Wolf,Idan Schwartz
発行日 2024-08-21 15:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク