要約
LLM ベースのエージェント インテリジェンスの自動評価は、高度な LLM ベースのエージェントを開発する場合に重要です。
AlpacaEval などの人による注釈付き評価データセットの開発には多大な労力が費やされてきましたが、既存の手法はコストと時間がかかり、適応性に欠けています。
この論文では、人気のある言語ゲーム「Who is Spy」に触発され、単語推測ゲームを使用して LLM の知能パフォーマンスを評価することを提案します。
単語が与えられると、LLM はその単語を説明し、その単語と他のプレイヤーの説明に基づいてその正体 (スパイかどうか) を判断するように求められます。
理想的には、上級エージェントは、攻撃的な説明を使用して特定の単語を正確に説明すると同時に、保守的な説明で混乱を最大化し、ゲームへの参加を強化する能力を備えている必要があります。
この目的のために、私たちはまず LLM の表現と変装能力を評価する DEEP を開発します。
DEEP では、LLM が積極的モードと保守的モードで単語を記述する必要があります。
次に、競争力のある言語ベースのボード ゲームへの参加を通じて LLM の知性を評価するように設計された対話型マルチエージェント フレームワークである SpyGame を紹介します。
マルチエージェント インタラクションを組み込んだ SpyGame では、ターゲット LLM に言語スキルと戦略的思考を要求し、LLM の人間のような認知能力と複雑なコミュニケーション状況における適応性のより包括的な評価を提供します。
提案された評価フレームワークは実装が非常に簡単です。
私たちは複数のソース、ドメイン、言語から単語を収集し、提案された評価フレームワークを使用して実験を実施しました。
広範な実験により、提案された DEEP と SpyGame がさまざまな LLM の能力を効果的に評価し、新しい状況に適応し、戦略的コミュニケーションに従事する能力を捕捉できることが実証されました。
要約(オリジナル)
The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game “Who is Spy”, we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players’ descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs’ expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs’ intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs’ human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication.
arxiv情報
著者 | Tian Liang,Zhiwei He,Jen-tes Huang,Wenxuan Wang,Wenxiang Jiao,Rui Wang,Yujiu Yang,Zhaopeng Tu,Shuming Shi,Xing Wang |
発行日 | 2023-10-31 14:37:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google