Superstudent intelligence in thermodynamics

要約

この短いメモでは、印象的なイベントを報告および分析します。Openaiの大規模な言語モデルO3は、熱力学に関する大学の試験ですべての学生を上回っています。
熱力学試験は、ほとんどの学生にとって難しいハードルであり、この重要なトピックの基本を習得したことを示さなければなりません。
その結果、故障率は非常に高く、Aグラデーションはまれです。また、学生の例外的な知的能力の証拠と考えられています。
これは、パターン学習が試験で役に立たないためです。
問題は、熱力学の原則を知識を豊かに創造的に組み合わせることによってのみ解決できます。
学生だけでなく、Openaiの最も強力な推論モデルO3にも最新の熱力学試験を行い、O3の答えを学生とまったく同じ方法で評価しました。
ゼロショットモードでは、モデルO3はすべての問題を正しく解決し、試験を受けたすべての学生よりも優れています。
その総合スコアは、1985年以来、10,000を超える類似の試験で見た最高のスコアの範囲でした。これはターニングポイントです。マシンは現在、通常、人間の知的能力の証明とみなされる複雑なタスクに優れています。
これがエンジニアの仕事と将来のエンジニアの教育にもたらす結果について説明します。

要約(オリジナル)

In this short note, we report and analyze a striking event: OpenAI’s large language model o3 has outwitted all students in a university exam on thermodynamics. The thermodynamics exam is a difficult hurdle for most students, where they must show that they have mastered the fundamentals of this important topic. Consequently, the failure rates are very high, A-grades are rare – and they are considered proof of the students’ exceptional intellectual abilities. This is because pattern learning does not help in the exam. The problems can only be solved by knowledgeably and creatively combining principles of thermodynamics. We have given our latest thermodynamics exam not only to the students but also to OpenAI’s most powerful reasoning model, o3, and have assessed the answers of o3 exactly the same way as those of the students. In zero-shot mode, the model o3 solved all problems correctly, better than all students who took the exam; its overall score was in the range of the best scores we have seen in more than 10,000 similar exams since 1985. This is a turning point: machines now excel in complex tasks, usually taken as proof of human intellectual capabilities. We discuss the consequences this has for the work of engineers and the education of future engineers.

arxiv情報

著者 Rebecca Loubet,Pascal Zittlau,Marco Hoffmann,Luisa Vollmer,Sophie Fellenz,Heike Leitte,Fabian Jirasek,Johannes Lenhard,Hans Hasse
発行日 2025-06-11 15:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE パーマリンク