要約
フロンティアモデルの既存のベンチマークは、多くの場合、専門の「PHDレベル」の知識をテストします。
対照的に、一般的な知識のみを必要とするNPRサンデーパズルチャレンジに基づいて、594の問題を伴うベンチマークを提示します。
私たちのベンチマークは、人間とモデルの両方にとって挑戦的です。
ただし、正しいソリューションは簡単に検証でき、モデルの間違いは簡単に見つけることができます。
LLMは社会でより広く展開されているため、深いドメインの専門知識を必要とせずに人間が理解できるフロンティアモデルのベンチマークを開発することが有用であると考えています。
私たちの作業は、既存のベンチマークでは明らかではない能力のギャップを明らかにしています。OpenaiO1は、専門知識をテストするベンチマークでテストされたときに他のモデルと同等になっているにもかかわらず、ベンチマークの他の推論モデルを大幅に上回ります。
さらに、推論出力の分析により、新しい種類の障害が明らかになります。
たとえば、Deepseek R1は、間違っていることがわかっていることを回答する前に、しばしば「私はあきらめ」と認めます。
また、R1は出力では著しく「不確実」になる可能性があり、まれな場合は「思考を終える」ことはできません。これは、コンテキストウィンドウの制限に達する前にテクニックが「ラップ」する必要があることを示唆しています。
また、推論の有効性を定量化して、より多くの推論がベンチマークの精度を向上させる可能性が低いポイントを特定します。
要約(オリジナル)
Existing benchmarks for frontier models often test specialized, ‘PhD-level’ knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark with 594 problems based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models; however correct solutions are easy to verify, and models’ mistakes are easy to spot. As LLMs are more widely deployed in society, we believe it is useful to develop benchmarks for frontier models that humans can understand without the need for deep domain expertise. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models on our benchmark, despite being on par with other models when tested on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with ‘I give up’ before providing an answer that it knows is wrong. R1 can also be remarkably ‘uncertain’ in its output and in rare cases, it does not ‘finish thinking,’ which suggests the need for techniques to ‘wrap up’ before the context window limit is reached. We also quantify the effectiveness of reasoning longer to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.
arxiv情報
著者 | Zixuan Wu,Francesca Lucchetti,Aleksander Boruch-Gruszecki,Jingmiao Zhao,Carolyn Jane Anderson,Joydeep Biswas,Federico Cassano,Molly Q Feldman,Arjun Guha |
発行日 | 2025-03-31 14:21:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google