要約
ポケモンバトルで実証されたように、戦術バトルゲームにおいて人間と同等のパフォーマンスを達成する初の LLM を体現したエージェントである PokeLLMon を紹介します。
PokeLLMon の設計には、次の 3 つの主要な戦略が組み込まれています。(i) 戦闘から得られたテキストベースのフィードバックを即座に消費してポリシーを反復的に改良するインコンテキスト強化学習。
(ii) 幻覚に対抗するために外部の知識を取得し、エージェントがタイムリーかつ適切に行動できるようにする知識拡張生成。
(iii) エージェントが強力な敵に直面し、戦闘を回避したい場合のパニック切り替え現象を軽減するための一貫したアクション生成。
人間とのオンライン戦闘は、PokeLLMon の人間らしい戦闘戦略とジャストインタイムの意思決定を実証し、ラダー競技での勝率 49%、招待された戦闘での勝率 56% を達成したことを示しました。
私たちの実装とプレイ可能な戦闘ログは、https://github.com/git-disl/PokeLLMon で入手できます。
要約(オリジナル)
We introduce PokeLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pokemon battles. The design of PokeLLMon incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the panic switching phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates PokeLLMon’s human-like battle strategies and just-in-time decision making, achieving 49% of win rate in the Ladder competitions and 56% of win rate in the invited battles. Our implementation and playable battle logs are available at: https://github.com/git-disl/PokeLLMon.
arxiv情報
著者 | Sihao Hu,Tiansheng Huang,Ling Liu |
発行日 | 2024-04-02 15:46:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google