要約
大規模言語モデル (LLM) の推論能力を評価することは困難です。
既存のベンチマークは、多くの場合、データ汚染に対して脆弱で時間の経過とともに飽和する可能性がある静的データセット、または推論と他の能力を混同するバイナリの生の人間のフィードバックに依存しています。
最も著名な動的ベンチマークである Chatbot Arena は、現実世界の設定で自由形式の質問を評価しますが、特定の推論能力を評価する粒度が不足しています。
人間とのインタラクティブなゲームプレイを通じて LLM 推論能力を評価するように設計された動的ベンチマークである GameArena を紹介します。
GameArena は、参加者を楽しませて夢中にさせながら、特定の推論能力 (演繹的推論や帰納的推論など) をテストするように設計された 3 つのゲームで構成されています。
私たちはゲーム データを遡及的に分析して、LLM の根底にある推論プロセスを明らかにし、その詳細な推論能力を測定します。
私たちは 2000 を超えるゲーム セッションを収集し、5 つの最先端の LLM のさまざまな推論機能の詳細な評価を提供します。
100 人の参加者を対象としたユーザー調査では、GameArena が Chatbot Arena と比較してユーザー エンゲージメントを向上させることが示唆されています。
GameArena により、実際の段階的な LLM 推論データの収集が初めて可能になりました。
要約(オリジナル)
Evaluating the reasoning abilities of large language models (LLMs) is challenging. Existing benchmarks often depend on static datasets, which are vulnerable to data contamination and may get saturated over time, or on binary live human feedback that conflates reasoning with other abilities. As the most prominent dynamic benchmark, Chatbot Arena evaluates open-ended questions in real-world settings, but lacks the granularity in assessing specific reasoning capabilities. We introduce GameArena, a dynamic benchmark designed to evaluate LLM reasoning capabilities through interactive gameplay with humans. GameArena consists of three games designed to test specific reasoning capabilities (e.g., deductive and inductive reasoning), while keeping participants entertained and engaged. We analyze the gaming data retrospectively to uncover the underlying reasoning processes of LLMs and measure their fine-grained reasoning capabilities. We collect over 2000 game sessions and provide detailed assessments of various reasoning capabilities for five state-of-the-art LLMs. Our user study with 100 participants suggests that GameArena improves user engagement compared to Chatbot Arena. For the first time, GameArena enables the collection of step-by-step LLM reasoning data in the wild.
arxiv情報
著者 | Lanxiang Hu,Qiyu Li,Anze Xie,Nan Jiang,Ion Stoica,Haojian Jin,Hao Zhang |
発行日 | 2024-12-09 11:22:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google