要約
Symbolic Regression(SR)は、データからシンプルで解釈可能な数学的表現を発見することに焦点を当てた機械学習の新たな分野です。
SRメソッドの大幅な数が開発されていますが、多くの場合、計算コストが高い、入力寸法の数、ノイズへの脆弱性、精度と複雑さのバランスが取れないことに関するスケーラビリティが低いなどの課題に直面しています。
この作業では、これらの課題に対処する新しいSRアルゴリズムであるSymanticを紹介します。
相互情報ベースの機能選択の一意の組み合わせを通じて、大規模な候補($ \ sim 10^5 $ \ sim 10^{10} {10} $以上)から(潜在的に複数の)低次元記述子を効率的に識別します。
、適応機能の拡張、および再帰的に適用された$ \ ell_0 $ベースのスパース回帰。
さらに、情報理論的尺度を採用して、おおよそのパレート最適方程式のセットを生成し、それぞれが特定の複雑さに対して最も発見された精度を提供します。
さらに、Pytorchエコシステムに基づいて構築されたSymanticのオープンソースの実装により、簡単なインストールとGPU加速が促進されます。
合成例、科学的ベンチマーク、現実世界の材料プロパティ予測、小さなデータセットからの混oticとした動的システム識別など、さまざまな問題にわたるシトリンチックの有効性を実証します。
大規模な比較によると、Symanticは、既存のSRメソッドのコストのほんの一部で同様のまたはより正確なモデルを明らかにしていることが示されています。
要約(オリジナル)
Symbolic regression (SR) is an emerging branch of machine learning focused on discovering simple and interpretable mathematical expressions from data. Although a wide-variety of SR methods have been developed, they often face challenges such as high computational cost, poor scalability with respect to the number of input dimensions, fragility to noise, and an inability to balance accuracy and complexity. This work introduces SyMANTIC, a novel SR algorithm that addresses these challenges. SyMANTIC efficiently identifies (potentially several) low-dimensional descriptors from a large set of candidates (from $\sim 10^5$ to $\sim 10^{10}$ or more) through a unique combination of mutual information-based feature selection, adaptive feature expansion, and recursively applied $\ell_0$-based sparse regression. In addition, it employs an information-theoretic measure to produce an approximate set of Pareto-optimal equations, each offering the best-found accuracy for a given complexity. Furthermore, our open-source implementation of SyMANTIC, built on the PyTorch ecosystem, facilitates easy installation and GPU acceleration. We demonstrate the effectiveness of SyMANTIC across a range of problems, including synthetic examples, scientific benchmarks, real-world material property predictions, and chaotic dynamical system identification from small datasets. Extensive comparisons show that SyMANTIC uncovers similar or more accurate models at a fraction of the cost of existing SR methods.
arxiv情報
著者 | Madhav R. Muthyala,Farshud Sorourifar,You Peng,Joel A. Paulson |
発行日 | 2025-02-05 17:05:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google