要約
従来の常識では、画像生成のための自己回帰モデルは一般的にベクトル化されたトークンを伴うとされてきた。我々は、離散値空間はカテゴリー分布を表現しやすいが、自己回帰モデリングには必要ないことを観察する。本研究では、連続値空間において自己回帰モデルを適用することを可能にする拡散手続きを用いて、トークン毎の確率分布をモデル化することを提案する。カテゴリカルクロスエントロピー損失ではなく、拡散損失関数を定義し、トークン毎の確率をモデル化する。このアプローチにより、離散値のトークナイザーは不要となる。標準的な自己回帰モデルや一般化されたマスク自己回帰(MAR)変種を含む幅広いケースでその有効性を評価する。ベクトル量子化を除去することにより、我々の画像生成器は、シーケンスモデリングのスピードの利点を享受しながら、強力な結果を達成する。この研究が、他の連続値領域やアプリケーションにおける自己回帰生成の使用の動機付けとなることを期待している。コードはhttps://github.com/LTH14/mar。
要約(オリジナル)
Conventional wisdom holds that autoregressive models for image generation are typically accompanied by vector-quantized tokens. We observe that while a discrete-valued space can facilitate representing a categorical distribution, it is not a necessity for autoregressive modeling. In this work, we propose to model the per-token probability distribution using a diffusion procedure, which allows us to apply autoregressive models in a continuous-valued space. Rather than using categorical cross-entropy loss, we define a Diffusion Loss function to model the per-token probability. This approach eliminates the need for discrete-valued tokenizers. We evaluate its effectiveness across a wide range of cases, including standard autoregressive models and generalized masked autoregressive (MAR) variants. By removing vector quantization, our image generator achieves strong results while enjoying the speed advantage of sequence modeling. We hope this work will motivate the use of autoregressive generation in other continuous-valued domains and applications. Code is available at: https://github.com/LTH14/mar.
arxiv情報
著者 | Tianhong Li,Yonglong Tian,He Li,Mingyang Deng,Kaiming He |
発行日 | 2024-11-01 14:45:36+00:00 |
arxivサイト | arxiv_id(pdf) |