Gauge-optimal approximate learning for small data classification problems

要約

小規模データの学習問題は、限られた量の応答変数の観測値と大きな特徴空間次元との間の大きな不一致によって特徴付けられます。
この設定では、一般的な学習ツールは、分類タスクに重要な特徴を関連情報のない特徴から識別するのに苦労し、異なるクラスを区別できる適切な学習ルールを導き出すことができません。
この問題の潜在的な解決策として、ここでは低次元ゲージの特徴空間を縮小および回転するというアイデアを利用し、次元削減に対する分析的に扱いやすい統合ソリューションを提供するゲージ最適近似学習 (GOAL) アルゴリズムを提案します。
、小規模データの学習問題に対する特徴のセグメンテーションと分類の問題。
GOAL アルゴリズムの最適解はユークリッド空間の区分線形関数で構成され、特徴空間の離散セグメンテーションの仮定の下で、次のような単調収束アルゴリズムによって近似できることを証明します。
各最適化サブステップの閉形式ソリューションと全体の線形反復コスト スケーリング。
GOAL アルゴリズムは、合成データと、気候科学と生物情報学による困難な現実世界のアプリケーション (つまり、エルニーニョ南方振動の予測やエピジェネティックな推論など) の両方に関して、他の最先端の機械学習 (ML) ツールと比較されています。
限られた実験データから誘導された遺伝子活性ネットワーク)。
実験結果は、提案されたアルゴリズムが、学習パフォーマンスと計算コストの両方において、これらの問題に関して報告されている最良の競合アルゴリズムよりも優れていることを示しています。

要約(オリジナル)

Small data learning problems are characterized by a significant discrepancy between the limited amount of response variable observations and the large feature space dimension. In this setting, the common learning tools struggle to identify the features important for the classification task from those that bear no relevant information, and cannot derive an appropriate learning rule which allows to discriminate between different classes. As a potential solution to this problem, here we exploit the idea of reducing and rotating the feature space in a lower-dimensional gauge and propose the Gauge-Optimal Approximate Learning (GOAL) algorithm, which provides an analytically tractable joint solution to the dimension reduction, feature segmentation and classification problems for small data learning problems. We prove that the optimal solution of the GOAL algorithm consists in piecewise-linear functions in the Euclidean space, and that it can be approximated through a monotonically convergent algorithm which presents — under the assumption of a discrete segmentation of the feature space — a closed-form solution for each optimization substep and an overall linear iteration cost scaling. The GOAL algorithm has been compared to other state-of-the-art machine learning (ML) tools on both synthetic data and challenging real-world applications from climate science and bioinformatics (i.e., prediction of the El Nino Southern Oscillation and inference of epigenetically-induced gene-activity networks from limited experimental data). The experimental results show that the proposed algorithm outperforms the reported best competitors for these problems both in learning performance and computational cost.

arxiv情報

著者 Edoardo Vecchi,Davide Bassetti,Fabio Graziato,Lukas Pospisil,Illia Horenko
発行日 2023-10-29 16:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク