Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics


これらの問題に対処するために、非平衡効果を利用する新しいトレーニング アルゴリズムを使用します。
このアプローチは、制限付きボルツマン マシンに適用され、サンプルを正しく分類し、わずか数回のサンプリング ステップで高品質の合成データを生成するモデルの能力を向上させます。
この方法の有効性は、手書きの数字、大陸起源によって分類されたヒトゲノムの変異、酵素タンパク質ファミリーの機能的に特徴付けられた配列、および特定の分類法からの相同 RNA 配列の 4 つの異なるタイプのデータへの適用に成功したことによって実証されています。


In this study, we address the challenge of using energy-based models to produce high-quality, label-specific data in complex structured datasets, such as population genetics, RNA or protein sequences data. Traditional training methods encounter difficulties due to inefficient Markov chain Monte Carlo mixing, which affects the diversity of synthetic data and increases generation times. To address these issues, we use a novel training algorithm that exploits non-equilibrium effects. This approach, applied on the Restricted Boltzmann Machine, improves the model’s ability to correctly classify samples and generate high-quality synthetic data in only a few sampling steps. The effectiveness of this method is demonstrated by its successful application to four different types of data: handwritten digits, mutations of human genomes classified by continental origin, functionally characterized sequences of an enzyme protein family, and homologous RNA sequences from specific taxonomies.


著者 Alessandra Carbone,Aurélien Decelle,Lorenzo Rosset,Beatriz Seoane
発行日 2023-07-13 15:08:44+00:00
