A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model

要約

スケールワイズの自己回帰モデルを活用するトレーニングフリーのスタイルに合わせた画像生成方法を提示します。
大規模なテキストからイメージ(T2I)モデル、特に拡散ベースの方法は印象的な発電の品質を実証していますが、生成された画像セットとゆっくりとした推論速度全体でスタイルの不整合に苦しみ、実用的な使いやすさを制限します。
これらの問題に対処するために、3つの重要なコンポーネントを提案します。一貫したバックグラウンド外観を確保するための初期機能置換、オブジェクトの配置を調整するための極めて重要な特徴補間、およびスケジュール関数を使用してスタイルの一貫性を強化するダイナミックスタイルインジェクション。
微調整や追加のトレーニングを必要とする以前の方法とは異なり、私たちのアプローチは、個々のコンテンツの詳細を維持しながら、高速な推論を維持します。
広範な実験では、我々の方法が競合するアプローチに匹敵する生成品質を達成し、スタイルのアライメントを大幅に改善し、最速のモデルの6倍以上の推論速度を提供することが示されています。

要約(オリジナル)

We present a training-free style-aligned image generation method that leverages a scale-wise autoregressive model. While large-scale text-to-image (T2I) models, particularly diffusion-based methods, have demonstrated impressive generation quality, they often suffer from style misalignment across generated image sets and slow inference speeds, limiting their practical usability. To address these issues, we propose three key components: initial feature replacement to ensure consistent background appearance, pivotal feature interpolation to align object placement, and dynamic style injection, which reinforces style consistency using a schedule function. Unlike previous methods requiring fine-tuning or additional training, our approach maintains fast inference while preserving individual content details. Extensive experiments show that our method achieves generation quality comparable to competing approaches, significantly improves style alignment, and delivers inference speeds over six times faster than the fastest model.

arxiv情報

著者 Jihun Park,Jongmin Gim,Kyoungmin Lee,Minseok Oh,Minwoo Choi,Jaeyeul Kim,Woo Chool Park,Sunghoon Im
発行日 2025-04-08 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク