要約
現代の科学は、繰り返し認められた惑星の動きを推論することから生まれました。
この歴史的発展に匹敵するタスクでAIエージェントに挑戦する環境ベースのベンチマークであるGravity-Bench-V1を提示します。
重力ベンチ-V1は、厳密な重力ダイナミクスシミュレーションを使用して、動的環境内で隠された物理学の発見についてエージェントを評価します。
重力ベンチには、分散除外のケース、つまり、現実の世界から逸脱する物理学が含まれ、真の科学的一般化能力を評価します。
エージェントは、実験予算内でデータを収集することを計画する必要があり、タスクを効率的に解決するために、ダイナミックな形式のデータ分析と推論を実行する必要があります。
私たちのベンチマークは、ソリューションの自由なスペースを認めています。
各タスクのPHDレベルのソリューションが提供され、人間の専門知識に対するAIパフォーマンスを調整します。
技術的には、上級レベルで、私たちのベンチマークはベースラインAIエージェントに挑戦することが証明されています。
Gravity-Bench-V1と計画された拡張機能は、科学的発見の能力に向けてAIの進歩をマッピングするのに役立つはずです。
要約(オリジナル)
Modern science emerged from reasoning over repeatedly-observed planetary motions. We present Gravity-Bench-v1, an environment-based benchmark that challenges AI agents on tasks that parallel this historical development. Gravity-Bench-v1 evaluates agents on the discovery of physics concealed within a dynamic environment, using rigorous gravitational dynamics simulations. Gravity-Bench includes out-of-distribution cases, i.e. with physics that deviates from the real world, to evaluate true scientific generalization capabilities. Agents must plan to collect data within an experimental budget and must perform a dynamic form of data analysis and reasoning to solve tasks efficiently. Our benchmark admits an open-ended space of solutions. PhD-level solutions for each task are provided, to calibrate AI performance against human expertise. Technically at an upper-undergraduate level, our benchmark proves challenging to baseline AI agents. Gravity-Bench-v1 and planned extensions should help map out AI progress towards scientific discovery capabilities.
arxiv情報
著者 | Nolan Koblischke,Hyunseok Jang,Kristen Menou,Mohamad Ali-Dib |
発行日 | 2025-01-30 15:06:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google