要約
離散空間の拡散モデルや流れ生成モデルの設計空間は、連続空間の対応物に比べて大幅に理解されておらず、多くの研究は単純なマスクされた構造のみに焦点を当てています。
この研究では、連続時間マルコフ連鎖に基づく離散生成モデルの構築に総合的なアプローチを採用し、初めて任意の離散確率パス (口語的には破損プロセス) の使用を可能にすることを目指しています。
対称運動エネルギーの最適化というレンズを通して、任意の確率パスに適用できる速度公式を提案し、確率と速度を完全に切り離し、ユーザーが特定の専門知識に基づいて望ましい確率パスを指定できるようにします。
データドメイン。
さらに、混合確率経路の特別な構築により、離散的な場合の対称運動エネルギーが最適化されることがわかりました。
私たちは、テキスト生成、無機マテリアル生成、画像生成などの複数のモダリティにわたって、この新しいデザイン空間の有用性を経験的に検証します。
速度論的に最適な混合パスを使用するテキストであってもマスク構築よりも優れたパフォーマンスを発揮できる一方で、視覚領域にわたる確率パスの領域固有の構築を利用できることがわかりました。
要約(オリジナル)
The design space of discrete-space diffusion or flow generative models are significantly less well-understood than their continuous-space counterparts, with many works focusing only on a simple masked construction. In this work, we aim to take a holistic approach to the construction of discrete generative models based on continuous-time Markov chains, and for the first time, allow the use of arbitrary discrete probability paths, or colloquially, corruption processes. Through the lens of optimizing the symmetric kinetic energy, we propose velocity formulas that can be applied to any given probability path, completely decoupling the probability and velocity, and giving the user the freedom to specify any desirable probability path based on expert knowledge specific to the data domain. Furthermore, we find that a special construction of mixture probability paths optimizes the symmetric kinetic energy for the discrete case. We empirically validate the usefulness of this new design space across multiple modalities: text generation, inorganic material generation, and image generation. We find that we can outperform the mask construction even in text with kinetic-optimal mixture paths, while we can make use of domain-specific constructions of the probability path over the visual domain.
arxiv情報
著者 | Neta Shaul,Itai Gat,Marton Havasi,Daniel Severo,Anuroop Sriram,Peter Holderrieth,Brian Karrer,Yaron Lipman,Ricky T. Q. Chen |
発行日 | 2024-12-04 17:24:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google