要約
ビジュアル コンテンツの生成が機械学習によってますます推進される時代において、人間のフィードバックを生成モデルに統合することは、ユーザー エクスペリエンスと出力品質を向上させる重要な機会をもたらします。
この研究では、人間による反復的なフィードバックを拡散ベースのテキストから画像へのモデルの生成プロセスに組み込む戦略を検討します。
私たちは、広く普及している拡散モデルに適用できるトレーニング不要のアプローチである FABRIC を提案します。これは、最も広く使用されているアーキテクチャに存在する自己注意層を利用して、一連のフィードバック画像に基づいて拡散プロセスを条件付けします。
私たちのアプローチの厳密な評価を確実にするために、私たちは包括的な評価方法論を導入し、人間のフィードバックを統合した生成視覚モデルのパフォーマンスを定量化する堅牢なメカニズムを提供します。
徹底的な分析を通じて、任意のユーザーの好みを暗黙的に最適化し、複数回の反復フィードバックを通じて生成結果が改善されることを示します。
これらの発見は、パーソナライズされたコンテンツの作成やカスタマイズなどの分野に応用できる可能性があります。
要約(オリジナル)
In an era where visual content generation is increasingly driven by machine learning, the integration of human feedback into generative models presents significant opportunities for enhancing user experience and output quality. This study explores strategies for incorporating iterative human feedback into the generative process of diffusion-based text-to-image models. We propose FABRIC, a training-free approach applicable to a wide range of popular diffusion models, which exploits the self-attention layer present in the most widely used architectures to condition the diffusion process on a set of feedback images. To ensure a rigorous assessment of our approach, we introduce a comprehensive evaluation methodology, offering a robust mechanism to quantify the performance of generative visual models that integrate human feedback. We show that generation results improve over multiple rounds of iterative feedback through exhaustive analysis, implicitly optimizing arbitrary user preferences. The potential applications of these findings extend to fields such as personalized content creation and customization.
arxiv情報
著者 | Dimitri von Rütte,Elisabetta Fedele,Jonathan Thomm,Lukas Wolf |
発行日 | 2023-07-19 17:39:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google