要約
最近の研究では、大規模言語モデル (LLM) を使用した社会演繹ゲーム用の自律型ゲーム プレーヤーの開発が開始されています。
LLM プレーヤーを構築する場合、ゲームプレイ能力の弱点に対処するために、きめ細かい評価が重要です。
しかし、既存の研究ではそのような評価が見落とされていることがよくあります。
具体的には、評価方法の問題点を 2 点指摘します。
まず、ゲームプレイ能力は通常、特定のイベントレベルのスキルではなく、ゲームレベルの結果を通じて評価されてきました。
第二に、エラー分析には体系化された方法論が欠けています。
これらの問題に対処するために、SpyGame という名前の SpyFall ゲームのバリアントを利用するアプローチを提案します。
私たちは 4 つの LLM を使用して実験を実施し、SpyGame でのゲームプレイの動作を定量的および定性的に分析しました。
定量分析では、最初の問題を解決するために 8 つの指標を導入しました。これにより、これらの指標が、意図の特定とカムフラージュという 2 つの重要なスキルを評価するのに既存の指標よりも効果的であることが明らかになりました。
定性分析では、2つ目の課題を解決するためにテーマ分析を行いました。
この分析では、LLM のゲームプレイに影響を与える 4 つの主要なカテゴリを特定します。
さらに、これらのカテゴリが定量分析の結果をどのように補完し、サポートするかを示します。
要約(オリジナル)
Recent studies have begun developing autonomous game players for social deduction games using large language models (LLMs). When building LLM players, fine-grained evaluations are crucial for addressing weaknesses in game-playing abilities. However, existing studies have often overlooked such assessments. Specifically, we point out two issues with the evaluation methods employed. First, game-playing abilities have typically been assessed through game-level outcomes rather than specific event-level skills; Second, error analyses have lacked structured methodologies. To address these issues, we propose an approach utilizing a variant of the SpyFall game, named SpyGame. We conducted an experiment with four LLMs, analyzing their gameplay behavior in SpyGame both quantitatively and qualitatively. For the quantitative analysis, we introduced eight metrics to resolve the first issue, revealing that these metrics are more effective than existing ones for evaluating the two critical skills: intent identification and camouflage. In the qualitative analysis, we performed thematic analysis to resolve the second issue. This analysis identifies four major categories that affect gameplay of LLMs. Additionally, we demonstrate how these categories complement and support the findings from the quantitative analysis.
arxiv情報
著者 | Byungjun Kim,Dayeon Seo,Bugeun Kim |
発行日 | 2024-08-19 12:35:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google