要約
Textarenaは、大規模な言語モデル(LLM)におけるエージェント行動のトレーニングと評価のための競争力のあるテキストベースのゲームのオープンソースコレクションです。
57以上の一意の環境(シングルプレイヤー、2人のプレイヤー、マルチプレイヤーのセットアップを含む)にまたがって、リアルタイムのトリュースキルスコアを使用して、オンラインプレイシステム(人間やその他の提出されたモデルに対して)を介してモデル機能を簡単に評価できるようになります。
従来のベンチマークは、交渉、心の理論、欺ceptionなどの動的なソーシャルスキルをめったに評価し、テキストアレナが対処するギャップを作成します。
研究、コミュニティ、拡張性を念頭に置いて設計されたTextarenaは、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルに対抗する、トレーニングモデルの容易さを強調しています。
環境、ゲーム、リーダーボード、および例の詳細なドキュメントは、https://github.com/leonguertler/textarenaおよびhttps://www.textarena.ai/で入手できます。
要約(オリジナル)
TextArena is an open-source collection of competitive text-based games for training and evaluation of agentic behavior in Large Language Models (LLMs). It spans 57+ unique environments (including single-player, two-player, and multi-player setups) and allows for easy evaluation of model capabilities via an online-play system (against humans and other submitted models) with real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social skills such as negotiation, theory of mind, and deception, creating a gap that TextArena addresses. Designed with research, community and extensibility in mind, TextArena emphasizes ease of adding new games, adapting the framework, testing models, playing against the models, and training models. Detailed documentation of environments, games, leaderboard, and examples are available on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.
arxiv情報
著者 | Leon Guertler,Bobby Cheng,Simon Yu,Bo Liu,Leshem Choshen,Cheston Tan |
発行日 | 2025-04-15 17:55:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google