要約
記号回帰は、データから簡潔で解釈可能な数式を発見する能力のおかげで、現代の科学研究において重要な役割を果たしている。壮大な挑戦は、学習データに適合させることを意図しながら、無限の探索空間の中で、簡潔で一般化可能な数式を探す困難な探索にある。既存のアルゴリズムは、複雑な問題を扱う際に、10年以上にわたって精度と効率の決定的なボトルネックに直面しており、これは本質的に、学際的な領域にわたる科学的探求のための記号的回帰の適用ペースを妨げている。このため、我々は、限られたデータから一般的な数式を効率的に抽出するための並列化木探索(PTS)モデルを導入する。一連の広範な実験を通して、我々は数式発見のためのPTSの優れた精度と効率を実証し、80以上の合成データセットと実験データセットにおいて、最先端のベースラインモデルを大きく上回る性能を示す(例えば、最大99%の精度向上と1桁の速度向上)。PTSは、記号的で解釈可能なモデル(例えば、基礎となる物理法則)の正確かつ効率的なデータ駆動型発見における重要な進歩を示しており、スケーラブルな記号学習への極めて重要な移行を示している。
要約(オリジナル)
Symbolic regression plays a crucial role in modern scientific research thanks to its capability of discovering concise and interpretable mathematical expressions from data. A grand challenge lies in the arduous search for parsimonious and generalizable mathematical formulas, in an infinite search space, while intending to fit the training data. Existing algorithms have faced a critical bottleneck of accuracy and efficiency over a decade when handling problems of complexity, which essentially hinders the pace of applying symbolic regression for scientific exploration across interdisciplinary domains. To this end, we introduce a parallelized tree search (PTS) model to efficiently distill generic mathematical expressions from limited data. Through a series of extensive experiments, we demonstrate the superior accuracy and efficiency of PTS for equation discovery, which greatly outperforms the state-of-the-art baseline models on over 80 synthetic and experimental datasets (e.g., lifting its performance by up to 99% accuracy improvement and one-order of magnitude speed up). PTS represents a key advance in accurate and efficient data-driven discovery of symbolic, interpretable models (e.g., underlying physical laws) and marks a pivotal transition towards scalable symbolic learning.
arxiv情報
著者 | Kai Ruan,Ze-Feng Gao,Yike Guo,Hao Sun,Ji-Rong Wen,Yang Liu |
発行日 | 2024-07-05 10:41:15+00:00 |
arxivサイト | arxiv_id(pdf) |