要約
この研究では、エネルギーベースのモデルを使用して、集団遺伝学、RNA、タンパク質配列データなどの複雑な構造のデータセットで高品質のラベル固有のデータを生成するという課題に取り組みます。
従来のトレーニング方法では、非効率的なマルコフ連鎖モンテカルロ混合により困難が生じ、合成データの多様性に影響を及ぼし、生成時間が増加します。
これらの問題に対処するために、非平衡効果を利用する新しいトレーニング アルゴリズムを使用します。
このアプローチは、制限付きボルツマン マシンに適用され、サンプルを正しく分類し、わずか数回のサンプリング ステップで高品質の合成データを生成するモデルの能力を向上させます。
この方法の有効性は、手書きの数字、大陸起源によって分類されたヒトゲノムの変異、酵素タンパク質ファミリーの機能的に特徴付けられた配列、および特定の分類法からの相同 RNA 配列の 4 つの異なるタイプのデータへの適用に成功したことによって実証されています。
要約(オリジナル)
In this study, we address the challenge of using energy-based models to produce high-quality, label-specific data in complex structured datasets, such as population genetics, RNA or protein sequences data. Traditional training methods encounter difficulties due to inefficient Markov chain Monte Carlo mixing, which affects the diversity of synthetic data and increases generation times. To address these issues, we use a novel training algorithm that exploits non-equilibrium effects. This approach, applied on the Restricted Boltzmann Machine, improves the model’s ability to correctly classify samples and generate high-quality synthetic data in only a few sampling steps. The effectiveness of this method is demonstrated by its successful application to four different types of data: handwritten digits, mutations of human genomes classified by continental origin, functionally characterized sequences of an enzyme protein family, and homologous RNA sequences from specific taxonomies.
arxiv情報
著者 | Alessandra Carbone,Aurélien Decelle,Lorenzo Rosset,Beatriz Seoane |
発行日 | 2023-07-13 15:08:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google