Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

要約

多くの強化学習環境 (Minecraft など) では、タスクの完了または失敗をバイナリ値で示すまばらな報酬のみが提供されます。
このような環境では探索効率が課題となるため、強化学習ベースのエージェントが複雑なタスクを学習することが困難になります。
これに対処するために、このホワイトペーパーでは、Auto MC-Reward という名前の高度な学習システムを紹介します。このシステムは、大規模言語モデル (LLM) を利用して高密度の報酬関数を自動的に設計し、それによって学習効率を高めます。
Auto MC-Reward は、Reward Designer、Reward Critic、Trajectory Analyzer の 3 つの重要なコンポーネントで構成されています。
環境情報とタスクの説明が与えられると、報酬デザイナーはまず、事前定義された観測入力を使用して実行可能な Python 関数をコーディングすることで報酬関数を設計します。
次に、報酬評論家がコードを検証し、コードに自己一貫性があり、構文エラーや意味論的なエラーがないかどうかをチェックする責任を負います。
さらに、軌道アナライザーは考えられる失敗の原因を要約し、収集した軌道に従って改善の提案を提供します。
次のラウンドでは、報酬デザイナーはフィードバックに基づいて高密度報酬関数をさらに改良し、反復します。
実験では、溶岩を効率的に回避する能力を備えたダイヤモンドを入手したり、平原バイオームにまばらな木や動物を効率的に探索したりするなど、Minecraft の複雑なタスクにおけるエージェントの成功率と学習効率が大幅に向上していることが実証されています。

要約(オリジナル)

Many reinforcement learning environments (e.g., Minecraft) provide only sparse rewards that indicate task completion or failure with binary values. The challenge in exploration efficiency in such environments makes it difficult for reinforcement-learning-based agents to learn complex tasks. To address this, this paper introduces an advanced learning system, named Auto MC-Reward, that leverages Large Language Models (LLMs) to automatically design dense reward functions, thereby enhancing the learning efficiency. Auto MC-Reward consists of three important components: Reward Designer, Reward Critic, and Trajectory Analyzer. Given the environment information and task descriptions, the Reward Designer first design the reward function by coding an executable Python function with predefined observation inputs. Then, our Reward Critic will be responsible for verifying the code, checking whether the code is self-consistent and free of syntax and semantic errors. Further, the Trajectory Analyzer summarizes possible failure causes and provides refinement suggestions according to collected trajectories. In the next round, Reward Designer will further refine and iterate the dense reward function based on feedback. Experiments demonstrate a significant improvement in the success rate and learning efficiency of our agents in complex tasks in Minecraft, such as obtaining diamond with the efficient ability to avoid lava, and efficiently explore trees and animals that are sparse in the plains biome.

arxiv情報

著者 Hao Li,Xue Yang,Zhaokai Wang,Xizhou Zhu,Jie Zhou,Yu Qiao,Xiaogang Wang,Hongsheng Li,Lewei Lu,Jifeng Dai
発行日 2024-03-30 15:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク