要約
テキストから画像の生成におけるオブジェクト数を正確に制御することは、依然として重要な課題です。
トレーニングデータがすべてのカウントバリエーションをカバーすることはめったにないため、監視された方法はしばしば失敗します。
除去プロセスを操作してオブジェクトを追加または削除する方法が役立ちます。
ただし、ラベル付きデータが必要であり、堅牢性と画質を制限し、遅い繰り返しプロセスに依存しています。
ソフトオブジェクト密度の合計に依存している事前に訓練された微分可能なカウントモデルが存在し、生成を操作することができますが、3つの主な課題があります。(i)クリーンな画像で事前に訓練されているため、騒々しい入力で動作する範囲の範囲では効果が低下します。
(ii)視点の変更に対して堅牢ではありません。
(iii)最適化は計算高価であり、画像ごとに繰り返されるモデル評価が必要です。
事前に訓練されたオブジェクトカウントテクニックとオブジェクト検出器を使用して、生成をガイドする新しいフレームワークを提案します。
まず、完全に生成された画像で計算された外側ループ損失を使用して、カウントトークンを最適化します。
第二に、検出モデルを介したバックプロパゲーションを必要とせずに、他の要因の中でも、視点と比例シフトによって引き起こされるエラーを修正する検出駆動型のスケーリング用語を導入します。
第三に、最適化されたパラメーターを新しいプロンプトのために再利用できることを示し、繰り返し最適化の必要性を削除します。
私たちの方法は、トークンの再利用、さまざまな検出器との互換性による柔軟性、および多様なオブジェクトカテゴリ全体のカウントが改善された精度を介した効率を提供します。
要約(オリジナル)
Accurately controlling object count in text-to-image generation remains a key challenge. Supervised methods often fail, as training data rarely covers all count variations. Methods that manipulate the denoising process to add or remove objects can help; however, they still require labeled data, limit robustness and image quality, and rely on a slow, iterative process. Pre-trained differentiable counting models that rely on soft object density summation exist and could steer generation, but employing them presents three main challenges: (i) they are pre-trained on clean images, making them less effective during denoising steps that operate on noisy inputs; (ii) they are not robust to viewpoint changes; and (iii) optimization is computationally expensive, requiring repeated model evaluations per image. We propose a new framework that uses pre-trained object counting techniques and object detectors to guide generation. First, we optimize a counting token using an outer-loop loss computed on fully generated images. Second, we introduce a detection-driven scaling term that corrects errors caused by viewpoint and proportion shifts, among other factors, without requiring backpropagation through the detection model. Third, we show that the optimized parameters can be reused for new prompts, removing the need for repeated optimization. Our method provides efficiency through token reuse, flexibility via compatibility with various detectors, and accuracy with improved counting across diverse object categories.
arxiv情報
著者 | Oz Zafar,Yuval Cohen,Lior Wolf,Idan Schwartz |
発行日 | 2025-06-05 15:25:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google