Autoregressive Image Generation with Randomized Parallel Decoding

要約

ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルであるARPGを導入し、従来のラスターオーダーアプローチの固有の制限に対処します。
私たちの重要な洞察は、効果的なランダムオーダーモデリングには、次の予測トークンの位置を決定するための明示的なガイダンスが必要であることです。
この目的のために、ポジショニングガイダンスをコンテンツ表現から切り離す新しいガイド付きデコードフレームワークを提案し、クエリとキー価値のペアとして個別にエンコードします。
このガイダンスを因果注意メカニズムに直接組み込むことにより、私たちのアプローチにより、完全にランダムな注文トレーニングと生成が可能になり、双方向の注意の必要性が排除されます。
その結果、ARPGは、画像の開始、中断、解像度の拡張などのゼロショットタスクに容易に一般化します。
さらに、共有KVキャッシュを使用して複数のクエリを同時に処理することにより、並列推論をサポートします。
ImagENET-1K 256ベンチマークでは、私たちのアプローチは1.94のFIDを達成し、サンプリングステップはわずか64のサンプリングステップで、スループットが20倍に増加し、同様のスケールでの代表的な最近の自己回帰モデルと比較してメモリ消費量を75%以上削減します。

要約(オリジナル)

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

arxiv情報

著者 Haopeng Li,Jinyue Yang,Guoqi Li,Huan Wang
発行日 2025-03-13 17:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク