要約
大規模な言語モデル(LLMS)の最近の進歩は、推論能力を正確に評価するためのより包括的な評価方法の必要性を強調しています。
多くの場合、既存のベンチマークはドメイン固有であるため、LLMの一般的な推論の可能性を完全にキャプチャすることはできません。
この制限に対処するために、Kor-BenchとGymnasiumに触発された動的評価プラットフォームである知識直交推論体育館(Korgym)を紹介します。
Korgymは、テキスト形式または視覚形式のいずれかで50以上のゲームを提供し、強化学習シナリオを使用したインタラクティブなマルチターン評価をサポートしています。
Korgymを使用して、19 LLMと8つのVLMで広範な実験を実施し、モデルファミリ内の一貫した推論パターンを明らかにし、クローズドソースモデルの優れた性能を実証します。
さらなる分析では、モデルのパフォーマンスに対するモダリティ、推論戦略、強化学習技術、および応答長の影響を調べます。
Korgymは、LLMの推論を進め、複雑でインタラクティブな環境に適した評価方法論を開発するための貴重なリソースになることを期待しています。
要約(オリジナル)
Recent advancements in large language models (LLMs) underscore the need for more comprehensive evaluation methods to accurately assess their reasoning capabilities. Existing benchmarks are often domain-specific and thus cannot fully capture an LLM’s general reasoning potential. To address this limitation, we introduce the Knowledge Orthogonal Reasoning Gymnasium (KORGym), a dynamic evaluation platform inspired by KOR-Bench and Gymnasium. KORGym offers over fifty games in either textual or visual formats and supports interactive, multi-turn assessments with reinforcement learning scenarios. Using KORGym, we conduct extensive experiments on 19 LLMs and 8 VLMs, revealing consistent reasoning patterns within model families and demonstrating the superior performance of closed-source models. Further analysis examines the effects of modality, reasoning strategies, reinforcement learning techniques, and response length on model performance. We expect KORGym to become a valuable resource for advancing LLM reasoning research and developing evaluation methodologies suited to complex, interactive environments.
arxiv情報
著者 | Jiajun Shi,Jian Yang,Jiaheng Liu,Xingyuan Bu,Jiangjie Chen,Junting Zhou,Kaijing Ma,Zhoufutu Wen,Bingli Wang,Yancheng He,Liang Song,Hualei Zhu,Shilong Li,Xingjian Wang,Wei Zhang,Ruibin Yuan,Yifan Yao,Wenjun Yang,Yunli Wang,Siyuan Fang,Siyu Yuan,Qianyu He,Xiangru Tang,Yingshui Tan,Wangchunshu Zhou,Zhaoxiang Zhang,Zhoujun Li,Wenhao Huang,Ge Zhang |
発行日 | 2025-05-21 07:43:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google