要約
従来の知恵は、自己回帰モデルを使用して個別のデータを処理することを示唆しています。
視覚データなどの連続モダリティに適用されると、視覚的自己回帰モデリング(VAR)は通常、量子化ベースのアプローチに頼って、データを個別のスペースにキャストし、重要な情報損失をもたらす可能性があります。
この問題に取り組むために、ベクター量子化なしで直接的な視覚的自己回帰生成を可能にする連続VARフレームワークを導入します。
基礎となる理論的基礎は厳密に適切なスコアリングルールであり、生成モデルが真の分布にどれだけ適しているかを評価できる強力な統計ツールを提供します。
このフレームワーク内で、必要なのは、厳密に適切なスコアを選択し、最適化するトレーニング目標として設定することだけです。
私たちは主に、エネルギースコアに基づいたトレーニング目標のクラスを探求します。エネルギースコアは、可能性がないため、連続空間で確率的予測を行うことの難しさを克服します。
GIVTや拡散損失などの継続的な自己回帰生成に関する以前の取り組みは、他の厳密に適切なスコアを使用して、フレームワークから導き出すこともできます。
ソースコード:https://github.com/shaochenze/ear。
要約(オリジナル)
Conventional wisdom suggests that autoregressive models are used to process discrete data. When applied to continuous modalities such as visual data, Visual AutoRegressive modeling (VAR) typically resorts to quantization-based approaches to cast the data into a discrete space, which can introduce significant information loss. To tackle this issue, we introduce a Continuous VAR framework that enables direct visual autoregressive generation without vector quantization. The underlying theoretical foundation is strictly proper scoring rules, which provide powerful statistical tools capable of evaluating how well a generative model approximates the true distribution. Within this framework, all we need is to select a strictly proper score and set it as the training objective to optimize. We primarily explore a class of training objectives based on the energy score, which is likelihood-free and thus overcomes the difficulty of making probabilistic predictions in the continuous space. Previous efforts on continuous autoregressive generation, such as GIVT and diffusion loss, can also be derived from our framework using other strictly proper scores. Source code: https://github.com/shaochenze/EAR.
arxiv情報
著者 | Chenze Shao,Fandong Meng,Jie Zhou |
発行日 | 2025-05-12 17:58:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google