要約
企業、組織、政府は、エージェントのような動作を表示する言語モデル (LM) の優れた機能をますます活用しています。
自律性が高まるタスクを実行するために LM が採用されるにつれ、信頼性が高くスケーラブルな評価ベンチマークが緊急に必要とされています。
現在の主に静的な LM ベンチマークは、このような動的なアプリケーションの評価には適していません。
したがって、交渉ゲームのレンズを通して LM のパフォーマンスと調整を共同で評価することを提案します。
私たちは、この共通のタスクは現実世界の導入状況をよりよく反映しており、同時に LM の意思決定プロセスについての洞察を提供すると主張します。
重要なのは、ネゴシエーション ゲームを使用すると、マルチターンおよびクロスモデルの相互作用を研究し、複雑さを調整し、評価における偶発的なデータ漏洩を回避できることです。
私たちは、セルフプレイとクロスプレイの両方のパフォーマンスを評価して、さまざまなネゴシエーション ゲームに関するいくつかの主要プロバイダーからの 6 つの公的にアクセス可能な LM の結果を報告します。
注目すべき調査結果は次のとおりです。(i) オープンソース モデルは現在、これらのタスクを完了できません。
(ii) 協力的な交渉ゲームは困難であることがわかります。
(iii) 最も強力なモデルが常に「勝つ」とは限りません。
要約(オリジナル)
Companies, organizations, and governments increasingly exploit Language Models’ (LM) remarkable capability to display agent-like behavior. As LMs are adopted to perform tasks with growing autonomy, there exists an urgent need for reliable and scalable evaluation benchmarks. Current, predominantly static LM benchmarks are ill-suited to evaluate such dynamic applications. Thus, we propose jointly evaluating LM performance and alignment through the lenses of negotiation games. We argue that this common task better reflects real-world deployment conditions while offering insights into LMs’ decision-making processes. Crucially, negotiation games allow us to study multi-turn, and cross-model interactions, modulate complexity, and side-step accidental data leakage in evaluation. We report results for six publicly accessible LMs from several major providers on a variety of negotiation games, evaluating both self-play and cross-play performance. Noteworthy findings include: (i) open-source models are currently unable to complete these tasks; (ii) cooperative bargaining games prove challenging; and (iii) the most powerful models do not always ‘win’.
arxiv情報
| 著者 | Tim R. Davidson,Veniamin Veselovsky,Martin Josifoski,Maxime Peyrard,Antoine Bosselut,Michal Kosinski,Robert West | 
| 発行日 | 2024-01-09 13:19:37+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
