要約
近年、生成前のトレーニング前に基礎モデルの大幅な進歩が見られましたが、この分野でのアルゴリズムの革新は、離散信号の自己回帰モデルと連続信号の拡散モデルの中で大部分が停滞しています。
この停滞により、ボトルネックが作成され、豊富なマルチモーダルデータの可能性が完全にロック解除され、マルチモーダルインテリジェンスの進捗が制限されます。
私たちは、シーケンスの長さと改良ステップにわたって推論時間中のスケーリング効率を優先する推論最初の視点は、新しい生成事前トレーニングアルゴリズムを刺激することができると主張します。
誘導モーメントマッチング(IMM)を具体的な例として使用して、標的変更を介した拡散モデルの推論プロセスの制限に対処することにより、順序の大きい推論効率で優れたサンプル品質を達成する安定した単一段階のアルゴリズムがどのように得られるかを示します。
要約(オリジナル)
Recent years have seen significant advancements in foundation models through generative pre-training, yet algorithmic innovation in this space has largely stagnated around autoregressive models for discrete signals and diffusion models for continuous signals. This stagnation creates a bottleneck that prevents us from fully unlocking the potential of rich multi-modal data, which in turn limits the progress on multimodal intelligence. We argue that an inference-first perspective, which prioritizes scaling efficiency during inference time across sequence length and refinement steps, can inspire novel generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a concrete example, we demonstrate how addressing limitations in diffusion models’ inference process through targeted modifications yields a stable, single-stage algorithm that achieves superior sample quality with over an order of magnitude greater inference efficiency.
arxiv情報
著者 | Jiaming Song,Linqi Zhou |
発行日 | 2025-03-11 16:52:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google