要約
自己回帰(AR)モデルは最近、画像生成において注目されており、拡散モデルの性能に匹敵するか、あるいはそれを上回ることさえある。しかし、ARモデルの大きな限界の1つは、トークンを一度に1つずつ処理する逐次的な性質であり、より効率的に動作するGANや拡散ベースの手法のようなモデルに比べて生成が遅くなる。投機的復号は、1回のフォワードで複数のトークンを生成することでLLMを高速化するのに有効であることが証明されているが、視覚ARモデルへの応用はほとんど未解明である。つまり、視覚的ARモデルはトークンに一様に低い確率を割り当てることが多く、投機的復号の性能を妨げている。この課題を克服するために、潜在空間におけるトークンの交換可能性を利用した、LANTERNと呼ばれる緩和された受け入れ条件を提案する。この緩和条件により、視覚的ARモデルにおける投機的解読の有効性が回復する。さらに、全変動距離境界を組み込むことで、画質や意味的一貫性を大きく損なうことなく、この速度向上を確実に達成する。実験結果は、投機的復号に比べて大幅な高速化を実現する我々の手法の有効性を実証している。具体的には、LANTERNは、最新の投機的復号化をナイーブに適用した場合と比較して、現代の視覚ARモデルであるLlamaGenに適用した場合、貪欲な復号化とランダムサンプリングと比較して、それぞれ$mathbf{1.75}times$と$mathbf{1.76}times$高速化した。
要約(オリジナル)
Auto-Regressive (AR) models have recently gained prominence in image generation, often matching or even surpassing the performance of diffusion models. However, one major limitation of AR models is their sequential nature, which processes tokens one at a time, slowing down generation compared to models like GANs or diffusion-based methods that operate more efficiently. While speculative decoding has proven effective for accelerating LLMs by generating multiple tokens in a single forward, its application in visual AR models remains largely unexplored. In this work, we identify a challenge in this setting, which we term \textit{token selection ambiguity}, wherein visual AR models frequently assign uniformly low probabilities to tokens, hampering the performance of speculative decoding. To overcome this challenge, we propose a relaxed acceptance condition referred to as LANTERN that leverages the interchangeability of tokens in latent space. This relaxation restores the effectiveness of speculative decoding in visual AR models by enabling more flexible use of candidate tokens that would otherwise be prematurely rejected. Furthermore, by incorporating a total variation distance bound, we ensure that these speed gains are achieved without significantly compromising image quality or semantic coherence. Experimental results demonstrate the efficacy of our method in providing a substantial speed-up over speculative decoding. In specific, compared to a na\’ive application of the state-of-the-art speculative decoding, LANTERN increases speed-ups by $\mathbf{1.75}\times$ and $\mathbf{1.76}\times$, as compared to greedy decoding and random sampling, respectively, when applied to LlamaGen, a contemporary visual AR model.
arxiv情報
著者 | Doohyuk Jang,Sihwan Park,June Yong Yang,Yeonsung Jung,Jihun Yun,Souvik Kundu,Sung-Yub Kim,Eunho Yang |
発行日 | 2024-10-04 12:21:03+00:00 |
arxivサイト | arxiv_id(pdf) |