Diffusing Gaussian Mixtures for Generating Categorical Data

要約

カテゴリ分布の学習には、独自の一連の課題が伴います。
最先端の研究で採用されている成功したアプローチは、問題を連続ドメインにキャストして、連続データの生成モデルの優れたパフォーマンスを利用することです。
その中には、最近出現した拡散確率モデルがあり、高品質のサンプルを生成するという利点が観察されています。
カテゴリ生成モデルの最近の進歩は、対数尤度の改善に焦点を当てています。
この作業では、高品質のサンプル生成に焦点を当てた拡散モデルに基づくカテゴリデータの生成モデルを提案し、サンプルベースの評価方法を提案します。
私たちの方法の有効性は、ターゲット分布のカテゴリカルな性質の構造によって通知されるパラメータ化を持ちながら、連続ドメインで拡散を実行することに由来します。
私たちの評価方法は、カテゴリデータを生成するためのさまざまな生成モデルの機能と制限を強調し、合成および実世界のタンパク質データセットに関する実験を含みます。

要約(オリジナル)

Learning a categorical distribution comes with its own set of challenges. A successful approach taken by state-of-the-art works is to cast the problem in a continuous domain to take advantage of the impressive performance of the generative models for continuous data. Amongst them are the recently emerging diffusion probabilistic models, which have the observed advantage of generating high-quality samples. Recent advances for categorical generative models have focused on log likelihood improvements. In this work, we propose a generative model for categorical data based on diffusion models with a focus on high-quality sample generation, and propose sampled-based evaluation methods. The efficacy of our method stems from performing diffusion in the continuous domain while having its parameterization informed by the structure of the categorical nature of the target distribution. Our method of evaluation highlights the capabilities and limitations of different generative models for generating categorical data, and includes experiments on synthetic and real-world protein datasets.

arxiv情報

著者 Florence Regol,Mark Coates
発行日 2023-03-08 14:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク