NFIG: Autoregressive Image Generation with Next-Frequency Prediction

要約

自己回帰モデルは、自然言語処理において有望な結果を達成しています。
ただし、画像生成タスクでは、長距離依存関係を効果的にキャプチャし、計算コストを管理し、最も重要なことに、自然画像階層を反映する意味のある自己回帰シーケンスを定義する上で大きな課題に遭遇します。
これらの問題に対処するために、\ textbf {n} ext- \ textbf {f} requency \ textbf {i} mage \ textbf {g} eneration(\ textbf {nfig})を提示します。
私たちのアプローチは、最初に低周波コンポーネントを生成して、より少ないトークンでグローバル構造を確立し、次に画像の自然なスペクトル階層に従って、徐々に高周波の詳細を追加します。
この原則的な自己回帰シーケンスは、画像コンポーネント間の真の因果関係をより適切にキャプチャすることにより、生成された画像の品質を向上させるだけでなく、推論中の計算オーバーヘッドを大幅に削減します。
大規模な実験は、NFIGがより少ないステップで最先端のパフォーマンスを達成し、画像生成のためのより効率的なソリューションを提供することを示しています。VarD20と比較して1.25 $ \ Times $ speedUpで、Imagenet-256ベンチマークでより良いパフォーマンス(FID:2.81)を達成します。
私たちは、周波数ドメインの知識を取り入れて自己回帰シーケンスの設計を導くという洞察が、将来の研究に光を当てることを願っています。
私たちは、論文を受け入れたときにコードを公開します。

要約(オリジナル)

Autoregressive models have achieved promising results in natural language processing. However, for image generation tasks, they encounter substantial challenges in effectively capturing long-range dependencies, managing computational costs, and most crucially, defining meaningful autoregressive sequences that reflect natural image hierarchies. To address these issues, we present \textbf{N}ext-\textbf{F}requency \textbf{I}mage \textbf{G}eneration (\textbf{NFIG}), a novel framework that decomposes the image generation process into multiple frequency-guided stages. Our approach first generates low-frequency components to establish global structure with fewer tokens, then progressively adds higher-frequency details, following the natural spectral hierarchy of images. This principled autoregressive sequence not only improves the quality of generated images by better capturing true causal relationships between image components, but also significantly reduces computational overhead during inference. Extensive experiments demonstrate that NFIG achieves state-of-the-art performance with fewer steps, offering a more efficient solution for image generation, with 1.25$\times$ speedup compared to VAR-d20 while achieving better performance (FID: 2.81) on the ImageNet-256 benchmark. We hope that our insight of incorporating frequency-domain knowledge to guide autoregressive sequence design will shed light on future research. We will make our code publicly available upon acceptance of the paper.

arxiv情報

著者 Zhihao Huang,Xi Qiu,Yukuo Ma,Yifu Zhou,Junjie Chen,Hongyuan Zhang,Chi Zhang,Xuelong Li
発行日 2025-05-26 14:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, I.2.10 パーマリンク