要約
生成モデルでは、次のセット予測ベースのマスク生成モデルと次のノイズ予測ベースの非自己回帰モデル (拡散モデルなど) という 2 つのパラダイムがさまざまなアプリケーションで注目を集めています。
この研究では、離散状態モデルを使用してそれらを接続し、ビジョン領域でのスケーラビリティを調査することを提案します。
まず、タイムステップの独立性、騒音スケジュール、温度、誘導強度などを含む 2 種類のモデルにわたる統合設計空間で、スケーラブルな方法で段階的な分析を実行します。
次に、画像セグメンテーションなどの典型的な識別タスクを、離散状態モデル上の [MASK] トークンからのマスク解除プロセスとして再キャストします。
これにより、結合分布をモデル化するために 1 回トレーニングするだけで、柔軟な条件付きサンプリングを含むさまざまなサンプリング プロセスを実行できるようになります。
前述のすべての探索は、Discrete Interpolants という名前のフレームワークにつながります。これにより、ImageNet256、MS COCO、ビデオ データセット FaceForensics などのさまざまなベンチマークで、以前の離散状態ベースの手法と比較して、最先端のパフォーマンスまたは競争力のあるパフォーマンスを達成することができます。
要約すると、離散状態モデルで [MASK] を活用することで、マスクされた生成モデルと非自己回帰拡散モデル、さらには生成タスクと識別タスクを橋渡しすることができます。
要約(オリジナル)
In generative models, two paradigms have gained attraction in various applications: next-set prediction-based Masked Generative Models and next-noise prediction-based Non-Autoregressive Models, e.g., Diffusion Models. In this work, we propose using discrete-state models to connect them and explore their scalability in the vision domain. First, we conduct a step-by-step analysis in a unified design space across two types of models including timestep-independence, noise schedule, temperature, guidance strength, etc in a scalable manner. Second, we re-cast typical discriminative tasks, e.g., image segmentation, as an unmasking process from [MASK] tokens on a discrete-state model. This enables us to perform various sampling processes, including flexible conditional sampling by only training once to model the joint distribution. All aforementioned explorations lead to our framework named Discrete Interpolants, which enables us to achieve state-of-the-art or competitive performance compared to previous discrete-state based methods in various benchmarks, like ImageNet256, MS COCO, and video dataset FaceForensics. In summary, by leveraging [MASK] in discrete-state models, we can bridge Masked Generative and Non-autoregressive Diffusion models, as well as generative and discriminative tasks.
arxiv情報
著者 | Vincent Tao Hu,Björn Ommer |
発行日 | 2024-12-10 14:09:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google