要約
大規模な言語モデル(LLMS)の評価は、伝統的に静的ベンチマークに依存してきました。これは、2つの主要な制限をもたらすパラダイムです。(1)定義されたテストセットには、多様なアプリケーションドメインへの適応性がありません。
これらの課題を克服するために、敵対的なゲームベースの相互作用に基づいた適応的評価フレームワークである推定アレナを提案します。
私が誰なのか推測のインタラクティブな構造に触発されましたか?
ゲーム、私たちのフレームワークは、動的ドメインの知識モデリングを進歩的な推論評価とシームレスに統合して、評価の忠実度を改善します。
5つの垂直ドメイン、ヘルスケア、製造、情報技術、および教育を実証する経験的研究では、推測がドメインの知識カバレッジと推論チェーンの完全性の観点からLLMSを効果的に区別していることを説明しています。
従来のベンチマークと比較して、私たちの方法は、解釈可能性、スケーラビリティ、シナリオの適応性において大きな利点を提供します。
要約(オリジナル)
The evaluation of large language models (LLMs) has traditionally relied on static benchmarks, a paradigm that poses two major limitations: (1) predefined test sets lack adaptability to diverse application domains, and (2) standardized evaluation protocols often fail to capture fine-grained assessments of domain-specific knowledge and contextual reasoning abilities. To overcome these challenges, we propose GuessArena, an adaptive evaluation framework grounded in adversarial game-based interactions. Inspired by the interactive structure of the Guess Who I Am? game, our framework seamlessly integrates dynamic domain knowledge modeling with progressive reasoning assessment to improve evaluation fidelity. Empirical studies across five vertical domains-finance, healthcare, manufacturing, information technology, and education-demonstrate that GuessArena effectively distinguishes LLMs in terms of domain knowledge coverage and reasoning chain completeness. Compared to conventional benchmarks, our method provides substantial advantages in interpretability, scalability, and scenario adaptability.
arxiv情報
著者 | Qingchen Yu,Zifan Zheng,Ding Chen,Simin Niu,Bo Tang,Feiyu Xiong,Zhiyu Li |
発行日 | 2025-05-28 17:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google