要約
大規模な言語モデルは、幅広いアプリケーションを備えた汎用性の高い汎用ツールです。
最近、「推論モデル」の出現により、数学やソフトウェアエンジニアリングなどの高度な問題解決ドメインの能力が大幅に改善されました。
この作業では、外部ツールからの支援なしに、化学タスクを直接実行する推論モデルの能力を評価しました。
Chemiqと呼ばれる新しいベンチマークを作成しました。これは、分子の理解と化学的推論に焦点を当てた有機化学のコア概念を評価する796の質問で構成されています。
主に複数選択形式を使用する以前のベンチマークとは異なり、当社のアプローチでは、モデルが短い回答応答を構築するために、より密接に反映された実際のアプリケーションを必要とします。
OpenaiのO3-Miniに例示された推論モデルは、使用される推論レベルに応じて質問の28%-59%に正しく答え、すべてのタスクのパフォーマンスが大幅に増加します。
これらのモデルは、非合理モデルであるGPT-4Oを大幅に上回り、7%の精度しか達成しませんでした。
大規模な言語モデルは、笑顔の文字列をiUPAC名に変換できるようになりました。これは、以前のモデルが実行できなかったタスクです。
さらに、最新の推論モデルでは、1Hおよび13C NMRデータから構造を解明し、最大10個の重原子を含む分子の74%のスマイルストリングを正しく生成し、1つのケースで21の重原子を含む構造を解くことができることを示しています。
各タスクについて、推論プロセスが人間の化学者のプロセスを反映しているという証拠を見つけました。
私たちの結果は、最新の推論モデルが高度な化学的推論を実行する能力を持っていることを示しています。
要約(オリジナル)
Large Language Models are versatile, general-purpose tools with a wide range of applications. Recently, the advent of ‘reasoning models’ has led to substantial improvements in their abilities in advanced problem-solving domains such as mathematics and software engineering. In this work, we assessed the ability of reasoning models to directly perform chemistry tasks, without any assistance from external tools. We created a novel benchmark, called ChemIQ, which consists of 796 questions assessing core concepts in organic chemistry, focused on molecular comprehension and chemical reasoning. Unlike previous benchmarks, which primarily use multiple choice formats, our approach requires models to construct short-answer responses, more closely reflecting real-world applications. The reasoning models, exemplified by OpenAI’s o3-mini, correctly answered 28%-59% of questions depending on the reasoning level used, with higher reasoning levels significantly increasing performance on all tasks. These models substantially outperformed the non-reasoning model, GPT-4o, which achieved only 7% accuracy. We found that Large Language Models can now convert SMILES strings to IUPAC names, a task earlier models were unable to perform. Additionally, we show that the latest reasoning models can elucidate structures from 1H and 13C NMR data, correctly generating SMILES strings for 74% of molecules containing up to 10 heavy atoms, and in one case solving a structure comprising 21 heavy atoms. For each task, we found evidence that the reasoning process mirrors that of a human chemist. Our results demonstrate that the latest reasoning models have the ability to perform advanced chemical reasoning.
arxiv情報
著者 | Nicholas T. Runcie,Charlotte M. Deane,Fergus Imrie |
発行日 | 2025-05-12 16:44:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google