要約
大規模言語モデル (LLM) ベースのエージェントは、さまざまなシナリオで人間の行動を模倣することに成功していますが、拡張されたコンテキスト内での複雑な複数のキャラクターの社会的相互作用の領域は、まだ研究されていません。
この課題はプライバシーの懸念によってさらに悪化し、複雑な現実生活のやり取りをキャプチャして利用することが困難になります。
さらに重要なことは、定量的な評価方法がないため、質の高いエージェントとの対話の追求が妨げられ、明確な意図のない表面的な世間話によって特徴付けられる、情報量と表現力が制限された対話につながることがよくあります。
この作業では、テーブルトップ ロール プレイング ゲーム (TRPG) のルールを活用して、情報量と表現力を重視して、複雑でコンテキストに富んだインタラクションを促進する環境を作成します。
この仮想設定により、プライバシーの懸念が軽減され、エージェントがゲーム内目標の一環として有意義で質の高い対話に参加するよう動機づけられます。
これらのインタラクションを評価するために、インタラクションの情報提供性と表現力の定性的評価を対象としたエージェント インタラクション評価フレームワーク (AntEval) を導入します。
具体的には、情報交換精度 (IEP) とインタラクション表現力ギャップ (IEG) という 2 つの新しい評価指標を提案します。
これらの指標は、それぞれ情報交換と意図表現に焦点を当てたシナリオでのインタラクションを評価するように設計されています。
私たちの実験結果は、インタラクションの質を評価する際のこれらの指標の有効性を示しています。
特に、当社の指標で強調されているように、社会的相互作用に関する LLM の改善が必要な重要な領域を特定しています。
私たちは、AntEval が複雑なエージェント インタラクションのさらなる探求を導き、実際の人間の行動のエミュレーションに近づけ、現実世界のアプリケーションでの統合と実用性を強化すると信じています。
要約(オリジナル)
While Large Language Models (LLMs) based agents have successfully mimicked human behaviors in various scenarios, the realm of complex, multi-character social interactions within extended contexts remains underexplored. The challenge is compounded by privacy concerns, making it difficult to capture and utilize intricate real-life interactions. More importantly, the absence of quantitative evaluation methods hampers the pursuit of high-quality agent interactions, often leading to interactions that are limited in informativeness and expressiveness, characterized by superficial small talk without clear intentions. In this work, we leverage the rules of Tabletop Role-Playing Games (TRPG) to create an environment conducive to complex, context-rich interactions, emphasizing informativeness and expressiveness. This virtual setting alleviates privacy concerns and motivates agents to engage in meaningful, high-quality interactions as part of their in-game objectives. To assess these interactions, we introduce the Agent interaction Evaluation framework (AntEval), targeting the qualitative evaluation of interaction informativeness and expressiveness. Specifically, we propose two novel evaluation metrics: Information Exchanging Precision (IEP) and Interaction Expressiveness Gap (IEG). These metrics are designed to assess interactions in scenarios focused on information exchange and intention expression, respectively. Our experimental results demonstrate the effectiveness of these metrics in evaluating interaction quality. Notably, we identify significant areas for improvement in LLMs regarding social interactions, as highlighted by our metrics. We believe AntEval will guide further exploration in complex agent interactions, bringing them closer to emulating real human behavior and enhancing their integration and utility in real-world applications.
arxiv情報
著者 | Yuanzhi Liang,Linchao Zhu,Yi Yang |
発行日 | 2024-01-12 11:18:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google