要約
次のトークン予測パラダイムで知られているオートレーフレフ(AR)モデリングは、最先端の言語と視覚的な生成モデルを支えています。
伝統的に、「トークン」は最小の予測ユニットとして扱われます。多くの場合、言語の個別のシンボルまたは視力の量子化されたパッチです。
ただし、2D画像構造の最適なトークン定義は未解決の問題のままです。
さらに、ARモデルは暴露バイアスに悩まされます。このモデルでは、トレーニング中に教師が強制すると推論でのエラーの蓄積につながります。
この論文では、トークンの概念をエンティティXに拡張する一般化されたARフレームワークであるXARを提案します。エンティティXは、個々のパッチトークン、セル(A $ k \ Times K $隣接パッチのグループ化)、サブサンプル(遠隔パッチの非局所グループ)、スケール(coalse-fine-fine Resolution)、さらには画像全体を表すことができます。
さらに、\ textBf {連続エンティティ回帰}として離散トークン分類を再定式化し、各ARステップでフローマッチングメソッドを活用します。
このアプローチは、グラウンドトゥルーストークンの代わりに騒々しいエンティティでのトレーニングを条件とし、騒々しいコンテキスト学習につながり、露出バイアスを効果的に軽減します。
その結果、XARは2つの重要な利点を提供します。(1)さまざまなコンテキストの粒度と空間構造をキャプチャする柔軟な予測単位を有効にし、(2)教師の強制への依存を回避することにより曝露バイアスを軽減します。
Imagenet-256の生成ベンチマークでは、ベースモデルであるXAR-B(172M)が、20 $ \ Times $ $ $の推論を達成しながら、DIT-XL/SIT-XL(675M)を上回ります。
一方、XAR-Hは、Vision Foundationモジュール(\ eg、Dinov2)または高度なガイダンス間隔サンプリングに依存することなく、以前のベストパフォーマンスモデルよりも2.2 $ \ Times $を速く実行し、1.24のFIDで新しい最先端を設定します。
要約(オリジナル)
Autoregressive (AR) modeling, known for its next-token prediction paradigm, underpins state-of-the-art language and visual generative models. Traditionally, a “token” is treated as the smallest prediction unit, often a discrete symbol in language or a quantized patch in vision. However, the optimal token definition for 2D image structures remains an open question. Moreover, AR models suffer from exposure bias, where teacher forcing during training leads to error accumulation at inference. In this paper, we propose xAR, a generalized AR framework that extends the notion of a token to an entity X, which can represent an individual patch token, a cell (a $k\times k$ grouping of neighboring patches), a subsample (a non-local grouping of distant patches), a scale (coarse-to-fine resolution), or even a whole image. Additionally, we reformulate discrete token classification as \textbf{continuous entity regression}, leveraging flow-matching methods at each AR step. This approach conditions training on noisy entities instead of ground truth tokens, leading to Noisy Context Learning, which effectively alleviates exposure bias. As a result, xAR offers two key advantages: (1) it enables flexible prediction units that capture different contextual granularity and spatial structures, and (2) it mitigates exposure bias by avoiding reliance on teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B (172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20$\times$ faster inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24, running 2.2$\times$ faster than the previous best-performing model without relying on vision foundation modules (\eg, DINOv2) or advanced guidance interval sampling.
arxiv情報
著者 | Sucheng Ren,Qihang Yu,Ju He,Xiaohui Shen,Alan Yuille,Liang-Chieh Chen |
発行日 | 2025-02-27 18:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google