UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models

要約

大規模な言語モデル(LLM)は、特に数学で複雑な推論タスクを解決する際に顕著な能力を実証しています。
ただし、物理学の推論の領域は、注目が大幅に少ないユニークな課題を提示します。
既存のベンチマークは、学部レベルの物理学の幅と深さに関するLLMSの能力を評価することに不足していることが多く、包括的な評価の必要性を強調しています。
このギャップを埋めるために、学部レベルの物理学(UGPHYSICS)の推論をLLMSで評価するために特別に設計された大規模で包括的なベンチマークであるUgphysicsを紹介します。
Ugphysicsには、英語と中国語の両方で5,520の学部レベルの物理学の問題が含まれ、7つの異なる回答タイプと4つの異なる物理的推論スキルを備えた13人の被験者をカバーし、すべて厳密にデータ漏れについてスクリーニングされています。
さらに、物理学の問題の回答の正確性を評価するために特別に調整されたモデルアシスタントルールベースの判断(MARJ)パイプラインを開発し、正確な評価を確保します。
31の主要なLLMSの評価は、最も高い全体的な精度である49.8%(Openai-O1-Miniによって達成)が、数学能力を超えて、物理学推論スキルが強いモデルの必要性を強調していることを示しています。
Ugphysicsは、MARJとともに、物理学の推論のためにAIの将来の進歩を促進することを願っています。
コードとデータは、https://github.com/yanglabhkust/ugphysicsで入手できます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in solving complex reasoning tasks, particularly in mathematics. However, the domain of physics reasoning presents unique challenges that have received significantly less attention. Existing benchmarks often fall short in evaluating LLMs’ abilities on the breadth and depth of undergraduate-level physics, underscoring the need for a comprehensive evaluation. To fill this gap, we introduce UGPhysics, a large-scale and comprehensive benchmark specifically designed to evaluate UnderGraduate-level Physics (UGPhysics) reasoning with LLMs. UGPhysics includes 5,520 undergraduate-level physics problems in both English and Chinese, covering 13 subjects with seven different answer types and four distinct physics reasoning skills, all rigorously screened for data leakage. Additionally, we develop a Model-Assistant Rule-based Judgment (MARJ) pipeline specifically tailored for assessing answer correctness of physics problems, ensuring accurate evaluation. Our evaluation of 31 leading LLMs shows that the highest overall accuracy, 49.8% (achieved by OpenAI-o1-mini), emphasizes the necessity for models with stronger physics reasoning skills, beyond math abilities. We hope UGPhysics, along with MARJ, will drive future advancements in AI for physics reasoning. Codes and data are available at https://github.com/YangLabHKUST/UGPhysics .

arxiv情報

著者 Xin Xu,Qiyun Xu,Tong Xiao,Tianhao Chen,Yuchen Yan,Jiaxin Zhang,Shizhe Diao,Can Yang,Yang Wang
発行日 2025-02-05 11:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク