SpectralAR: Spectral Autoregressive Visual Generation

要約

自己回帰視覚生成は、拡散モデルと比較して、そのスケーラビリティと他のモダリティとの互換性により、注目を集めています。
ほとんどの既存の方法は、自己回帰生成の空間パッチとして視覚シーケンスを構築します。
ただし、画像パッチは本質的に平行であり、自己回帰モデリングの因果的性質と矛盾しています。
これに対処するために、スペクトルの観点から視覚シーケンスの因果関係を実現するスペクトルの自己回帰(スペクトル)視覚生成フレームワークを提案します。
具体的には、最初に画像を、ネストされたスペクトルトークン化を備えた順序付けられたスペクトルトークンに変換し、より低い周波数コンポーネントからより高い頻度の成分を表します。
次に、スペクトルトークンのシーケンスを使用して、粗から洗練された方法で自己回帰生成を実行します。
画像内のさまざまなレベルの詳細を検討することにより、私たちのスペクトルは、鐘やホイッスルなしのシーケンス因果関係とトークン効率の両方を達成します。
画像の再構築と自己回帰生成のためにImagENET-1Kで広範な実験を実施し、スペクトラルはわずか64トークンと310mパラメーターで3.02 GFIDを達成します。
プロジェクトページ:https://huang-yh.github.io/spectralar/。

要約(オリジナル)

Autoregressive visual generation has garnered increasing attention due to its scalability and compatibility with other modalities compared with diffusion models. Most existing methods construct visual sequences as spatial patches for autoregressive generation. However, image patches are inherently parallel, contradicting the causal nature of autoregressive modeling. To address this, we propose a Spectral AutoRegressive (SpectralAR) visual generation framework, which realizes causality for visual sequences from the spectral perspective. Specifically, we first transform an image into ordered spectral tokens with Nested Spectral Tokenization, representing lower to higher frequency components. We then perform autoregressive generation in a coarse-to-fine manner with the sequences of spectral tokens. By considering different levels of detail in images, our SpectralAR achieves both sequence causality and token efficiency without bells and whistles. We conduct extensive experiments on ImageNet-1K for image reconstruction and autoregressive generation, and SpectralAR achieves 3.02 gFID with only 64 tokens and 310M parameters. Project page: https://huang-yh.github.io/spectralar/.

arxiv情報

著者 Yuanhui Huang,Weiliang Chen,Wenzhao Zheng,Yueqi Duan,Jie Zhou,Jiwen Lu
発行日 2025-06-12 17:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク