要約
大規模な言語モデル(LLM)の急速な発展と広範なアプリケーションにより、厳密な評価が特に重要になっています。
この研究は、LLMのコア計算推論能力の評価に焦点を当てた新しい視点を採用しており、ルールを正確に理解し、論理的に計算する操作を実行するモデルの能力として定義されています。
この機能は、LLMSの正確なエグゼクティブとしての信頼性を評価し、複雑なコード生成やマルチステップの問題解決などの高度なタスクにとって重要です。
ユニバーサルチューリングマシン(UTM)シミュレーションに基づいた評価フレームワークを提案します。
このフレームワークでは、LLMSは、マルチステップ計算中に、命令に厳密に従い、テープコンテンツや読み取り/書き込みヘッド位置などの動的状態を追跡する必要があります。
標準化された評価を可能にするために、LLMの計算推論機能を体系的に研究するためのベンチマークであるTmbenchを開発しました。
Tmbenchは、知識に依存しない評価、調整可能な難易度、チューリングマシンのエンコードによる基礎カバレッジ、たとえば生成の無制限の容量など、いくつかの重要な利点を提供し、モデルが進化し続ける拡張性を確保します。
Tmbenchのモデルパフォーマンスは、他の認識されている推論ベンチマーク(ピアソン相関係数は0.73)のパフォーマンスと強く相関しており、計算上の推論がLLMSの深い能力を測定するための重要な次元であることを明確に示しています。
コードとデータは、https://github.com/haitaowutju/turing-machine-benchで入手できます。
要約(オリジナル)
With the rapid development and widespread application of Large Language Models (LLMs), rigorous evaluation has become particularly crucial. This research adopts a novel perspective, focusing on evaluating the core computational reasoning ability of LLMs, defined as the capacity of model to accurately understand rules, and execute logically computing operations. This capability assesses the reliability of LLMs as precise executors, and is critical to advanced tasks such as complex code generation and multi-step problem-solving. We propose an evaluation framework based on Universal Turing Machine (UTM) simulation. This framework requires LLMs to strictly follow instructions and track dynamic states, such as tape content and read/write head position, during multi-step computations. To enable standardized evaluation, we developed TMBench, a benchmark for systematically studying the computational reasoning capabilities of LLMs. TMBench provides several key advantages, including knowledge-agnostic evaluation, adjustable difficulty, foundational coverage through Turing machine encoding, and unlimited capacity for instance generation, ensuring scalability as models continue to evolve. We find that model performance on TMBench correlates strongly with performance on other recognized reasoning benchmarks (Pearson correlation coefficient is 0.73), clearly demonstrating that computational reasoning is a significant dimension for measuring the deep capabilities of LLMs. Code and data are available at https://github.com/HaitaoWuTJU/Turing-Machine-Bench.
arxiv情報
著者 | Haitao Wu,Zongbo Han,Huaxi Huang,Changqing Zhang |
発行日 | 2025-04-29 13:52:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google