要約
大規模な言語モデル(LLM)は急速に進歩しており、物理学の問題を含む複雑な科学的問題に取り組むことができるようになりました。
この進歩にもかかわらず、現在のLLMはしばしば、人間の専門家の特徴である簡潔で原則に基づいた推論をエミュレートできず、代わりに長くて不透明なソリューションを生成します。
この矛盾は、効率的で解釈可能な問題解決のためにコアの物理的原理を適用する能力の重要なギャップを強調しています。
この制限を体系的に調査するために、指導原則を使用して専門家が簡単に解決できるように設計された新しい原則ベースの物理的推論ベンチマークであるPhysenseを紹介しますが、原則的な推論なしではLLMSにとっては一見困難です。
複数の最先端のLLMとプロンプトタイプにわたる評価により、専門家のような推論パスと一致する一貫した失敗が明らかになり、効率的で堅牢で解釈可能な原則に基づいた科学的推論を備えたAIシステムを開発するための洞察を提供します。
要約(オリジナル)
Large language models (LLMs) have rapidly advanced and are increasingly capable of tackling complex scientific problems, including those in physics. Despite this progress, current LLMs often fail to emulate the concise, principle-based reasoning characteristic of human experts, instead generating lengthy and opaque solutions. This discrepancy highlights a crucial gap in their ability to apply core physical principles for efficient and interpretable problem solving. To systematically investigate this limitation, we introduce PhySense, a novel principle-based physics reasoning benchmark designed to be easily solvable by experts using guiding principles, yet deceptively difficult for LLMs without principle-first reasoning. Our evaluation across multiple state-of-the-art LLMs and prompt types reveals a consistent failure to align with expert-like reasoning paths, providing insights for developing AI systems with efficient, robust and interpretable principle-based scientific reasoning.
arxiv情報
著者 | Yinggan Xu,Yue Liu,Zhiqiang Gao,Changnan Peng,Di Luo |
発行日 | 2025-05-30 17:25:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google