要約
この研究では、人工知能エージェントが仮想環境内で複雑な言語命令を実行できるようにするという問題に取り組みます。
私たちのフレームワークでは、これらの指示には複雑な言語構造と、望ましい結果を達成するためにうまくナビゲートする必要がある複数の相互依存タスクが含まれると想定しています。
これらの複雑さを効果的に管理するために、大規模言語モデルの深い言語理解と強化学習エージェントの適応アクション実行機能を組み合わせた階層フレームワークを提案します。
言語モジュール (LLM に基づく) は、言語命令を高レベルのアクション プランに変換し、事前トレーニングされた強化学習エージェントによって実行されます。
私たちは、エージェントが構造を構築するように指示される IGLU と、言語コマンドに従ってエージェントがタスクを実行し、周囲の環境内のオブジェクトと対話する Crafter の 2 つの異なる環境で、アプローチの有効性を実証しました。
要約(オリジナル)
In this study, we address the issue of enabling an artificial intelligence agent to execute complex language instructions within virtual environments. In our framework, we assume that these instructions involve intricate linguistic structures and multiple interdependent tasks that must be navigated successfully to achieve the desired outcomes. To effectively manage these complexities, we propose a hierarchical framework that combines the deep language comprehension of large language models with the adaptive action-execution capabilities of reinforcement learning agents. The language module (based on LLM) translates the language instruction into a high-level action plan, which is then executed by a pre-trained reinforcement learning agent. We have demonstrated the effectiveness of our approach in two different environments: in IGLU, where agents are instructed to build structures, and in Crafter, where agents perform tasks and interact with objects in the surrounding environment according to language commands.
arxiv情報
著者 | Zoya Volovikova,Alexey Skrynnik,Petr Kuderov,Aleksandr I. Panov |
発行日 | 2024-07-12 14:19:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google