System 2 thinking in OpenAI’s o1-preview model: Near-perfect performance on a mathematics exam

要約

人間の認知の基礎となるプロセスは、多くの場合、高速で直感的な思考を含むシステム 1 と、ゆっくりとした意図的な推論を含むシステム 2 に分類されます。
以前は、大規模な言語モデルには、System 2 のより深く、より分析的な機能が欠けていると批判されました。2024 年 9 月、OpenAI は、System 2 のような推論を処理するように設計された o1 モデル シリーズを導入しました。
OpenAI のベンチマークは有望ですが、独立した検証がまだ必要です。
この研究では、オランダの「数学 B」最終試験で o1-preview モデルを 2 回テストしました。
76点中76点と74点というほぼ完璧な成績を収めた。
ちなみに、オランダでは 16,414 人の生徒のうち 24 人だけが満点を獲得しました。
比較すると、GPT-4o モデルは 76 点中 66 点と 62 点を獲得し、オランダの学生の平均点 40.63 点を大きく上回りました。
どちらのモデルも試験の数値にアクセスできませんでした。
モデルの汚染のリスクがあったため (つまり、o1 プレビューと GPT-4o の知識のカットオフは試験がオンラインで公開された後でした)、カットオフ日の後に公開された新しい数学 B 試験で手順を繰り返しました。

結果は、o1-preview が強力に実行されたこと (97.8 パーセンタイル) を再度示し、汚染が要因ではなかったことを示唆しています。
また、o1-preview の出力にはある程度のばらつきがあることも示します。これは、「幸運」(答えが正しい) または「不運」(出力が間違ったものに分岐した) があることを意味します。
繰り返しプロンプトが与えられ、最も一般的な回答が選択される自己一貫性アプローチが、正解を特定するための有用な戦略であることを実証します。
OpenAI の新しいモデル シリーズには大きな可能性が秘められていますが、一定のリスクを考慮する必要があると結論付けられています。

要約(オリジナル)

The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI’s benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch ‘Mathematics B’ final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch students’ average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contami-nation (i.e., the knowledge cutoff for o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is ‘luck’ (the answer is correct) or ‘bad luck’ (the output has diverged into something that is incorrect). We demonstrate that the self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI’s new model series holds great potential, certain risks must be considered.

arxiv情報

著者 Joost de Winter,Dimitra Dodou,Yke Bauke Eisma
発行日 2024-10-24 12:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク