要約
大規模なビジョン言語モデルは、微調整やデータの増強を犠牲にして、パーソナライゼーション機能を着実に獲得しています。
意味論的な事前情報と生成機能を調整する、モデルに依存しない学習を使用した画像生成のための 2 つのモデルを紹介します。
RLDF (拡散フィードバックからの強化学習) は、事前保存報酬関数ガイダンスによる視覚模倣のための特異なアプローチです。
これは、生成に Q 学習 (標準 Q* を使用) を採用し、有限のエンコードに合わせたアクションによる画像検索の意味報酬の軌跡に従います。
2 番目に提案されている方法であるノイズ拡散勾配は、最適化主導型です。
両方のメソッドの根幹にあるのは、継続的なセマンティック ガイダンスのために私たちが提案する特別な CFG エンコーディングです。
RLDF は、単一の入力画像のみを使用し、テキスト入力を使用せず、小売、スポーツ、農業などのさまざまな領域でクラスの一貫性と強力な視覚的多様性を示す高品質の画像を生成します。
プロジェクトの Web サイトは https://infernolia.github.io/RLDF から入手できます。
要約(オリジナル)
Large vision-language models are steadily gaining personalization capabilities at the cost of fine-tuning or data augmentation. We present two models for image generation using model-agnostic learning that align semantic priors with generative capabilities. RLDF, or Reinforcement Learning from Diffusion Feedback, is a singular approach for visual imitation through prior-preserving reward function guidance. This employs Q-learning (with standard Q*) for generation and follows a semantic-rewarded trajectory for image search through finite encoding-tailored actions. The second proposed method, noisy diffusion gradient, is optimization driven. At the root of both methods is a special CFG encoding that we propose for continual semantic guidance. Using only a single input image and no text input, RLDF generates high-quality images over varied domains including retail, sports and agriculture showcasing class-consistency and strong visual diversity. Project website is available at https://infernolia.github.io/RLDF.
arxiv情報
著者 | Aboli Marathe |
発行日 | 2023-11-27 09:20:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google