要約
AI エージェントの人間の行動シミュレーションでは、エージェントが信頼性の質を備えていることが必要です。これは、ユーザーがエージェントに対する信頼を確立しやすくなり、エージェントの目標の達成を効率化するため、非常に重要です。
大規模言語モデル (LLM) ベースのエージェントの最近の進歩により、人間の行動シミュレーションは改善されましたが、LLM に固有の課題 (長いコンテキスト モデリングなど) により、その信頼性が損なわれる可能性があります。
その結果、AI エージェントの信頼性を評価することが不可欠になります。
残念ながら、先行研究ではLLM欠乏症の悪影響が無視されることがよくあります。
これらのギャップに対処するために、LLM ベースのエージェントの信頼性を評価するための 2 つの指標である一貫性と堅牢性を導入し、ベンチマークである SimulateBench を使用して、一般的な LLM で実装されたエージェントの一貫性と堅牢性を評価します。
エージェントは、(i) 長いプロファイル入力が提示された場合、文字情報を正確に表現するのに苦労していることがわかりました。
(ii) プロファイルの摂動に対して脆弱性を示します。
(iii) 全体的な信頼性に影響を与える特定の重要な要因によって大きく影響を受けます。
コードと SimulateBench は https://github.com/GAIR-NLP/GPTMan で公開されています。
要約(オリジナル)
Human behavior simulation of AI agents necessitates the agents to possess a quality of believability, which is crucial as it facilitates users in establishing trust toward the agents and streamlines the fulfillment of the agents’ goal. While recent advancements in Large Language Model (LLM) based agents have improved human behavior simulation, challenges inherent to LLMs (e.g., long context modeling) can undermine their believability. Consequently, evaluating AI agent believability becomes imperative. Unfortunately, prior research often neglects the negative impacts of LLM deficiencies. To address these gaps, we introduce two metrics for assessing LLM-based agent believability: consistency, and robustness, together with a benchmark, SimulateBench, with which, we evaluate the consistency and robustness of agents implemented with popular LLMs. We find that agents (i) struggle to accurately depict character information when presented with lengthy profile inputs; (ii) exhibit vulnerability to profile perturbations; and (iii) are significantly affected by certain key factors that impact their overall believability. Code and SimulateBench are public at https://github.com/GAIR-NLP/GPTMan.
arxiv情報
著者 | Yang Xiao,Yi Cheng,Jinlan Fu,Jiashuo Wang,Wenjie Li,Pengfei Liu |
発行日 | 2023-12-28 16:51:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google