Discovering Mathematical Formulas from Data via GPT-guided Monte Carlo Tree Search

要約

データ内の各変数と予測値の関係を正確に記述する、簡潔で解釈可能な数式を見つけることは、科学研究において重要なタスクであると同時に、人工知能における重要な課題でもあります。
この問題はシンボリック回帰と呼ばれ、NP 困難問題です。
前年には、モンテカルロ ツリー検索 (MCTS) を利用した新しいシンボリック回帰手法が進歩し、多様なデータセットで最先端の結果が得られました。
このアルゴリズムは、以前の方法と比較してターゲット表現の回復において大幅な改善を示していますが、MCTS プロセス中のガイダンスの欠如により、検索効率が大幅に妨げられます。
最近、一部のアルゴリズムでは、MCTS の検索をガイドするために事前トレーニングされたポリシー ネットワークが追加されましたが、事前トレーニングされたポリシー ネットワークは一般化が不十分です。
効率と汎用性の間のトレードオフを最適化するために、モンテカルロ ツリー検索 (MCTS) と生成事前学習変換器 (GPT) を統合するシンボリック回帰の新しいアルゴリズムである SR-GPT を導入します。
GPT を使用して MCTS をガイドすることにより、MCTS の検索効率が大幅に向上します。
次に、MCTS の結果を利用して GPT をさらに改良し、その機能を強化し、MCTS により正確なガイダンスを提供します。
MCTS と GPT は相互に結合され、ターゲットの発現が正常に決定されるまで相互に最適化されます。
10 を超える異なるシンボリック回帰データセットから得た 222 の式を使用して、SR-GPT の広範な評価を実施しました。
実験結果は、SR-GPT が、ノイズを追加した場合と追加しない場合の両方で記号式を正確に復元する点で、既存の最先端のアルゴリズムよりも優れていることを示しています。

要約(オリジナル)

Finding a concise and interpretable mathematical formula that accurately describes the relationship between each variable and the predicted value in the data is a crucial task in scientific research, as well as a significant challenge in artificial intelligence. This problem is referred to as symbolic regression, which is an NP-hard problem. In the previous year, a novel symbolic regression methodology utilizing Monte Carlo Tree Search (MCTS) was advanced, achieving state-of-the-art results on a diverse range of datasets. although this algorithm has shown considerable improvement in recovering target expressions compared to previous methods, the lack of guidance during the MCTS process severely hampers its search efficiency. Recently, some algorithms have added a pre-trained policy network to guide the search of MCTS, but the pre-trained policy network generalizes poorly. To optimize the trade-off between efficiency and versatility, we introduce SR-GPT, a novel algorithm for symbolic regression that integrates Monte Carlo Tree Search (MCTS) with a Generative Pre-Trained Transformer (GPT). By using GPT to guide the MCTS, the search efficiency of MCTS is significantly improved. Next, we utilize the MCTS results to further refine the GPT, enhancing its capabilities and providing more accurate guidance for the MCTS. MCTS and GPT are coupled together and optimize each other until the target expression is successfully determined. We conducted extensive evaluations of SR-GPT using 222 expressions sourced from over 10 different symbolic regression datasets. The experimental results demonstrate that SR-GPT outperforms existing state-of-the-art algorithms in accurately recovering symbolic expressions both with and without added noise.

arxiv情報

著者 Yanjie Li,Weijun Li,Lina Yu,Min Wu,Jingyi Liu,Wenqiang Li,Meilan Hao,Shu Wei,Yusong Deng
発行日 2024-01-30 09:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク