LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

要約

科学方程式の発見は、科学的進歩の歴史の基本的な課題であり、自然現象を管理する法律の導出を可能にします。
最近、大規模な言語モデル(LLM)は、仮説生成のために埋め込まれた科学的知識を活用する可能性があるため、このタスクに関心を集めています。
ただし、既存のベンチマークはLLMSによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しない膨張パフォーマンスメトリックにつながるため、これらのメソッドの真の発見機能を評価することは依然として困難です。
このペーパーでは、LLM-Srbenchを紹介します。これは、LLMベースの科学方程式発見方法を評価するために些細な記憶を防ぐために特別に設計された4つの科学ドメインにわたって239の挑戦的な問題を伴う包括的なベンチマークです。
私たちのベンチマークは、2つの主要なカテゴリで構成されています。LSR-Transformは、一般的な物理モデルをあまり一般的でない数学的表現に変換して、記憶された形式を超えて推論をテストすることと、データ駆動型の推論を必要とする合成の発見主導の問題を導入するLSR-Synthです。
オープンLLMとクローズドLLMの両方を使用して、いくつかの最先端の方法を広範囲に評価することにより、これまでのところ最高のパフォーマンスシステムが31.5%の象徴的な精度しか達成されないことがわかります。
これらの調査結果は、科学的方程式の発見の課題を強調し、LLM-Srbenchを将来の研究の貴重なリソースとして位置づけています。

要約(オリジナル)

Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

arxiv情報

著者 Parshin Shojaee,Ngoc-Hieu Nguyen,Kazem Meidani,Amir Barati Farimani,Khoa D Doan,Chandan K Reddy
発行日 2025-04-14 17:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク