SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping

要約

視覚的自己回帰(VAR)モデルに関する最近の研究では、生成プロセスの高周波成分以降のステップが推論のレイテンシに不釣り合いに貢献することを強調しています。
ただし、これらの手順に関与する基礎となる計算冗長性は、まだ徹底的に調査されていません。
このホワイトペーパーでは、var推論プロセスの詳細な分析を実施し、2つの主要な非効率性の原因を特定します。ステップ冗長性と無条件のブランチ冗長性です。
ステップの冗長性に対処するために、効率を改善するために不必要な生成ステップを選択的に省略する自動ステップスキップ戦略を提案します。
無条件の枝の冗長性については、条件付きブランチと無条件の枝の間の情報ギャップが最小限であることがわかります。
この洞察を活用して、無条件の枝交換を導入します。これは、計算コストを削減するために無条件のブランチをバイパスする手法です。
特に、加速戦略の有効性は、異なるサンプルによって大きく異なることを観察します。
これに動機付けられていると、頻度情報を活用して各インスタンスに最適な加速戦略を動的に選択するサンプル適応フレームワークであるSkipvarを提案します。
高周波情報の役割を評価するために、モデルの感度を微細な詳細にテストする高変動ベンチマークデータセットを紹介します。
広範な実験では、Skipvarが0.88を超える平均SSIMを達成し、全体的な加速度が最大1.81倍で、遺伝的ベンチマークで2.62倍のスピードアップを達成し、モデルの品質を維持しています。
これらの結果は、スケーラブルな自己回帰画像生成のための周波数認識のトレーニングのない適応加速度の有効性を裏付けています。
当社のコードはhttps://github.com/fakerone-li/skipvarで入手でき、公開されています。

要約(オリジナル)

Recent studies on Visual Autoregressive (VAR) models have highlighted that high-frequency components, or later steps, in the generation process contribute disproportionately to inference latency. However, the underlying computational redundancy involved in these steps has yet to be thoroughly investigated. In this paper, we conduct an in-depth analysis of the VAR inference process and identify two primary sources of inefficiency: step redundancy and unconditional branch redundancy. To address step redundancy, we propose an automatic step-skipping strategy that selectively omits unnecessary generation steps to improve efficiency. For unconditional branch redundancy, we observe that the information gap between the conditional and unconditional branches is minimal. Leveraging this insight, we introduce unconditional branch replacement, a technique that bypasses the unconditional branch to reduce computational cost. Notably, we observe that the effectiveness of acceleration strategies varies significantly across different samples. Motivated by this, we propose SkipVAR, a sample-adaptive framework that leverages frequency information to dynamically select the most suitable acceleration strategy for each instance. To evaluate the role of high-frequency information, we introduce high-variation benchmark datasets that test model sensitivity to fine details. Extensive experiments show SkipVAR achieves over 0.88 average SSIM with up to 1.81x overall acceleration and 2.62x speedup on the GenEval benchmark, maintaining model quality. These results confirm the effectiveness of frequency-aware, training-free adaptive acceleration for scalable autoregressive image generation. Our code is available at https://github.com/fakerone-li/SkipVAR and has been publicly released.

arxiv情報

著者 Jiajun Li,Yue Ma,Xinyu Zhang,Qingyan Wei,Songhua Liu,Linfeng Zhang
発行日 2025-06-11 04:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク