LLM-SR: Scientific Equation Discovery via Programming with Large Language Models

要約

数学的方程式は、さまざまな科学分野で複雑な自然現象を説明するのに不当に効果的でした。
ただし、データからこのような洞察に富んだ方程式を発見すると、非常に大きな組み合わせ仮説スペースをナビゲートする必要性があるため、重要な課題があります。
一般的にシンボリック回帰手法として知られている方程式発見の現在の方法は、データだけから方程式を抽出することに主に焦点を当て、科学者が通常依存するドメイン固有の事前知識を無視することがよくあります。
また、表現ツリーなどの限られた表現を使用し、検索空間と方程式の表現力を制約します。
このギャップを埋めるために、LLM-SRを紹介します。LLM-SRは、大規模な言語モデル(LLM)の広範な科学的知識と堅牢なコード生成機能を活用して、データから科学的方程式を発見する新しいアプローチを紹介します。
具体的には、LLM-SRは方程式を数学演算子のプログラムとして扱い、LLMSの科学的特徴と方程式に対する進化的検索と組み合わせます。
LLMは、新しい方程式のスケルトン仮説を繰り返し提案し、ドメインの知識から引き出し、パラメーターを推定するためにデータに対して最適化されます。
多様な科学ドメイン(物理学、生物学など)にわたる4つのベンチマーク問題でLLM-SRを評価します。これは、発見プロセスをシミュレートし、LLMの朗読を防ぐために慎重に設計されています。
我々の結果は、LLM-SRが、特に領域外のテスト設定で、最先端のシンボリック回帰ベースラインを大幅に上回る物理的に正確な方程式を発見したことを示しています。
また、LLM-SRによる科学的前症の組み込みにより、ベースラインよりも効率的な方程式スペース探索が可能になることも示しています。
コードとデータが利用可能です:https://github.com/deep-symbolic-mathematics/llm-sr

要約(オリジナル)

Mathematical equations have been unreasonably effective in describing complex natural phenomena across various scientific disciplines. However, discovering such insightful equations from data presents significant challenges due to the necessity of navigating extremely large combinatorial hypothesis spaces. Current methods of equation discovery, commonly known as symbolic regression techniques, largely focus on extracting equations from data alone, often neglecting the domain-specific prior knowledge that scientists typically depend on. They also employ limited representations such as expression trees, constraining the search space and expressiveness of equations. To bridge this gap, we introduce LLM-SR, a novel approach that leverages the extensive scientific knowledge and robust code generation capabilities of Large Language Models (LLMs) to discover scientific equations from data. Specifically, LLM-SR treats equations as programs with mathematical operators and combines LLMs’ scientific priors with evolutionary search over equation programs. The LLM iteratively proposes new equation skeleton hypotheses, drawing from its domain knowledge, which are then optimized against data to estimate parameters. We evaluate LLM-SR on four benchmark problems across diverse scientific domains (e.g., physics, biology), which we carefully designed to simulate the discovery process and prevent LLM recitation. Our results demonstrate that LLM-SR discovers physically accurate equations that significantly outperform state-of-the-art symbolic regression baselines, particularly in out-of-domain test settings. We also show that LLM-SR’s incorporation of scientific priors enables more efficient equation space exploration than the baselines. Code and data are available: https://github.com/deep-symbolic-mathematics/LLM-SR

arxiv情報

著者 Parshin Shojaee,Kazem Meidani,Shashank Gupta,Amir Barati Farimani,Chandan K Reddy
発行日 2025-03-20 16:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク