要約
自然言語と大規模言語モデル (LLM) の最近の進歩により、AI エージェントが仮想世界内で人間のような対話をシミュレートできるようになりました。
ただし、これらのインタラクションは、特に複数のキャラクターや新しいオブジェクトが関与するシナリオでは、複雑さと柔軟性の点で依然として制限に直面しています。
エージェントのワールド モデルですべての対話可能なオブジェクトを事前定義することには課題があり、複雑な対話を通じて複数のキャラクターに暗黙の意図を伝えることは依然として困難です。
これらの問題に対処するために、テーブルトップ ロールプレイング ゲーム (TRPG) からインスピレーションを得て、仮想ゲーム マスター (GM) をエージェントの世界モデルに統合することを提案します。
GM は、情報を監督し、プレイヤーの意図を推定し、環境の説明を提供し、フィードバックを提供して、現在のワールド モデルの欠陥を補うという重要な役割を果たします。
複雑なインタラクションの今後の探索を促進するために、複数のキャラクターと新しいオブジェクトベースのインタラクション推定 (MOE) タスクとサポート データセットで構成される、Tachikuma という名前のベンチマークを導入します。
MOE は、複数のキャラクターと新しいオブジェクトの相互作用を含む複雑な状況の中でキャラクターの意図を理解し、その行動を正確に決定することをモデルに求めます。
さらに、データセットはゲームプレイ中のリアルタイム通信からログ データをキャプチャし、さらなる探索のための多様で根拠のある複雑なインタラクションを提供します。
最後に、単純なプロンプトベースラインを提示してそのパフォーマンスを評価し、インタラクションの理解を高める効果を実証します。
私たちのデータセットとタスクが、自然言語との複雑な相互作用におけるさらなる研究を促し、より高度な AI エージェントの開発を促進することを願っています。
要約(オリジナル)
Recent advancements in natural language and Large Language Models (LLMs) have enabled AI agents to simulate human-like interactions within virtual worlds. However, these interactions still face limitations in complexity and flexibility, particularly in scenarios involving multiple characters and novel objects. Pre-defining all interactable objects in the agent’s world model presents challenges, and conveying implicit intentions to multiple characters through complex interactions remains difficult. To address these issues, we propose integrating virtual Game Masters (GMs) into the agent’s world model, drawing inspiration from Tabletop Role-Playing Games (TRPGs). GMs play a crucial role in overseeing information, estimating players’ intentions, providing environment descriptions, and offering feedback, compensating for current world model deficiencies. To facilitate future explorations for complex interactions, we introduce a benchmark named Tachikuma, comprising a Multiple character and novel Object based interaction Estimation (MOE) task and a supporting dataset. MOE challenges models to understand characters’ intentions and accurately determine their actions within intricate contexts involving multi-character and novel object interactions. Besides, the dataset captures log data from real-time communications during gameplay, providing diverse, grounded, and complex interactions for further explorations. Finally, we present a simple prompting baseline and evaluate its performance, demonstrating its effectiveness in enhancing interaction understanding. We hope that our dataset and task will inspire further research in complex interactions with natural language, fostering the development of more advanced AI agents.
arxiv情報
著者 | Yuanzhi Liang,Linchao Zhu,Yi Yang |
発行日 | 2023-07-24 07:40:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google