要約
機械学習で利用できるデータが限られていると、パフォーマンスと一般化に大きな影響を与えます。
従来の拡張手法は、適度に十分なデータセットを強化します。
GAN は、多様なサンプルを生成するときに収束に苦労します。
拡散モデルは効果的ではありますが、計算コストが高くなります。
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを導入します。
エキスパンダー グラフ マッピングと特徴補間を使用して、データ分布と特徴の関係を保持します。
このモデルは、Koopman オペレーターによってキャプチャされたニューラル ネットワークの非線形潜在空間を利用して、データセット拡張用の線形特徴空間を作成します。
セルフ アテンション レイヤーと最適なトランスポートを備えたオートエンコーダーにより、分散の一貫性が向上します。
生成されたデータでトレーニングされた分類子と元のデータセットでトレーニングされた分類子を比較することで検証します。
結果は同等のパフォーマンスを示し、トレーニング データを効果的に増強するモデルの可能性を示しています。
この取り組みによりデータ生成が前進し、機械学習アプリケーションの不足に対処します。
要約(オリジナル)
Limited data availability in machine learning significantly impacts performance and generalization. Traditional augmentation methods enhance moderately sufficient datasets. GANs struggle with convergence when generating diverse samples. Diffusion models, while effective, have high computational costs. We introduce an Expansive Synthesis model generating large-scale, information-rich datasets from minimal samples. It uses expander graph mappings and feature interpolation to preserve data distribution and feature relationships. The model leverages neural networks’ non-linear latent space, captured by a Koopman operator, to create a linear feature space for dataset expansion. An autoencoder with self-attention layers and optimal transport refines distributional consistency. We validate by comparing classifiers trained on generated data to those trained on original datasets. Results show comparable performance, demonstrating the model’s potential to augment training data effectively. This work advances data generation, addressing scarcity in machine learning applications.
arxiv情報
著者 | Vahid Jebraeeli,Bo Jiang,Hamid Krim,Derya Cansever |
発行日 | 2024-10-01 17:12:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google