S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

要約

S1-Benchを紹介します。S1-Benchは、審議システム2の推論ではなく、直感的なシステム1思考を優先する単純なタスクで、大きな推論モデル(LRMS)のパフォーマンスを評価するために設計された新しいベンチマークです。
LRMSは、明示的な思考チェーンを通じて複雑な推論タスクで大きなブレークスルーを達成しましたが、システム2の思考への依存度は、システム1の思考機能を制限する可能性があります。
ただし、LRMのシステム1思考機能を評価するための適切なベンチマークが不足しています。
このギャップを埋めるために、S1-Benchは、システム1に適した質問でLRMSのパフォーマンスを評価するように特別に設計された複数のドメインと言語にわたって、シンプルで多様な、自然な質問のスイートを紹介します。
28のLRMにわたって広範な評価を実施し、簡単な質問を処理する際に、それらの非効率性、不十分な精度、限られた堅牢性を明らかにします。
さらに、困難の知覚と生成の長さの間のギャップが観察されます。
全体として、この作業は、LRMSの開発におけるデュアルシステムの互換性への道を開きます。

要約(オリジナル)

We introduce S1-Bench, a novel benchmark designed to evaluate the performance of Large Reasoning Models (LRMs) on simple tasks that favor intuitive system 1 thinking rather than deliberative system 2 reasoning. While LRMs have achieved significant breakthroughs in complex reasoning tasks through explicit chains of thought, their heavy reliance on system 2 thinking may limit their system 1 thinking capabilities. However, there is a lack of an appropriate benchmark for evaluating LRM’s system 1 thinking capabilities. To fill this gap, S1-Bench introduces a suite of simple, diverse, and natural questions across multiple domains and languages, specifically designed to assess LRMs’ performance on questions more suitable for system 1 . We conduct extensive evaluations across 28 LRMs, revealing their inefficiency, inadequate accuracy, and limited robustness when handling simple questions. Additionally, we observe a gap between their difficulty perception and generation length. Overall, this work paves the way toward dual-system compatibility in the development of LRMs.

arxiv情報

著者 Wenyuan Zhang,Shuaiyi Nie,Xinghua Zhang,Zefeng Zhang,Tingwen Liu
発行日 2025-05-20 16:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク