要約
ベンチマークの関数バリアントを使用して、言語モデルの推論能力を堅牢に評価するためのフレームワークを提案します。
推論テストを解決するモデルは、機能バリアントのスナップショットと比較して、問題の静的バージョンと比較してパフォーマンスに違いが見られないはずです。
MATH ベンチマークの関連フラグメントをその関数バリアント MATH() に書き直し、他のベンチマークの関数化も続きます。
MATH() のスナップショットに対して現在の最先端のモデルを評価すると、推論上のギャップ、つまり静的精度と関数的精度の間のパーセンテージの差が見つかります。
静的ベンチマークで良好なパフォーマンスを示す最先端のクローズドおよびオープンウェイト モデル間には、58.35% から 80.31% の推論ギャップがあることがわかりました。ただし、より洗練されたプロンプト戦略を使用するとギャップは小さくなる可能性が高いことに注意してください。
ここでは、逸話的に現実世界のタスクよりも優れた推論パフォーマンスを示すモデルは、定量化可能なより低いギャップを持ち、「ギャップ 0」モデルを構築するという未解決の問題の動機となることを示します。
評価用のコードと新しい評価データセット、3 つの MATH() スナップショットは、https://github.com/consequentai/fneval/ で公開されています。
要約(オリジナル)
We propose a framework for robust evaluation of reasoning capabilities of language models, using functional variants of benchmarks. Models that solve a reasoning test should exhibit no difference in performance over the static version of a problem compared to a snapshot of the functional variant. We have rewritten the relevant fragment of the MATH benchmark into its functional variant MATH(), with functionalization of other benchmarks to follow. When evaluating current state-of-the-art models over snapshots of MATH(), we find a reasoning gap — the percentage difference between the static and functional accuracies. We find reasoning gaps from 58.35% to 80.31% among the state-of-the-art closed and open weights models that perform well on static benchmarks, with the caveat that the gaps are likely to be smaller with more sophisticated prompting strategies. Here we show that models which anecdotally have good reasoning performance over real-world tasks, have quantifiable lower gaps, motivating the open problem of building ‘gap 0’ models. Code for evaluation and new evaluation datasets, three MATH() snapshots, are publicly available at https://github.com/consequentai/fneval/.
arxiv情報
| 著者 | Saurabh Srivastava,Annarose M B,Anto P V,Shashank Menon,Ajay Sukumar,Adwaith Samod T,Alan Philipose,Stevin Prince,Sooraj Thomas | 
| 発行日 | 2024-02-29 18:48:18+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
