clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents

要約

最近の研究では、大規模言語モデル (LLM) が、特定の能力 (一般的な指示への従うこと、戦略的目標の指向性、言語理解能力) を調べる会話型ゲームを「セルフプレイ」するように促されることが確立されており、その結果、インタラクティブなゲームプレイが可能になります。
自動的に採点されます。
この論文では、このようなゲームプレイ環境をセットアップするために提案されたフレームワークの 1 つを取り上げ、さまざまな側面に沿って評価手段としての有用性をさらにテストします。データを回避しながら新しい開発に簡単に対応できることを示します。
汚染に関して、その中で実装されたテストがまだ飽和していないことを示し(人間のパフォーマンスは最良のモデルのパフォーマンスよりも大幅に高い)、プロンプト言語が人間に与える影響など、追加の質問を調査するのに適していることを示します。
パフォーマンス。
私たちは、このアプローチが、応用対話型システムを構築するためのモデルの選択を決定するための優れた基礎を形成し、おそらく最終的にはシステムとシミュレートされた評価器の閉ループ開発環境をセットアップするための優れた基盤を形成すると信じています。

要約(オリジナル)

It has been established in recent work that Large Language Models (LLMs) can be prompted to ‘self-play’ conversational games that probe certain capabilities (general instruction following, strategic goal orientation, language understanding abilities), where the resulting interactive game play can be automatically scored. In this paper, we take one of the proposed frameworks for setting up such game-play environments, and further test its usefulness as an evaluation instrument, along a number of dimensions: We show that it can easily keep up with new developments while avoiding data contamination, we show that the tests implemented within it are not yet saturated (human performance is substantially higher than that of even the best models), and we show that it lends itself to investigating additional questions, such as the impact of the prompting language on performance. We believe that the approach forms a good basis for making decisions on model choice for building applied interactive systems, and perhaps ultimately setting up a closed-loop development environment of system and simulated evaluator.

arxiv情報

著者 Anne Beyer,Kranti Chalamalasetti,Sherzod Hakimov,Brielen Madureira,Philipp Sadler,David Schlangen
発行日 2024-05-31 14:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク