Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

要約

従来の強化学習ベースのエージェントは、タスクの完了または失敗を示すためにバイナリ値のみを使用することが多い、まばらな報酬に依存しています。
探索効率の課題により、Minecraft で複雑なタスクを効果的に学習することが困難になります。
これに対処するために、このホワイトペーパーでは、Auto MC-Reward という名前の高度な学習システムを紹介します。このシステムは、大規模言語モデル (LLM) を利用して高密度の報酬関数を自動的に設計し、それによって学習効率を高めます。
Auto MC-Reward は、Reward Designer、Reward Critic、Trajectory Analyzer の 3 つの重要なコンポーネントで構成されています。
環境情報とタスクの説明が与えられると、報酬デザイナーはまず、事前定義された観測入力を使用して実行可能な Python 関数をコーディングすることで報酬関数を設計します。
次に、報酬評論家がコードを検証し、コードに自己一貫性があり、構文エラーや意味論的なエラーがないかどうかをチェックする責任を負います。
さらに、軌道アナライザーは考えられる失敗の原因を要約し、収集した軌道に従って改善の提案を提供します。
次のラウンドでは、報酬デザイナーはフィードバックに基づいて高密度報酬関数をさらに改良し、反復します。
実験では、溶岩を効率的に回避する能力を備えたダイヤモンドを入手したり、平原バイオームにまばらな木や動物を効率的に探索したりするなど、Minecraft の複雑なタスクにおけるエージェントの成功率と学習効率が大幅に向上していることが実証されています。

要約(オリジナル)

Traditional reinforcement-learning-based agents rely on sparse rewards that often only use binary values to indicate task completion or failure. The challenge in exploration efficiency makes it difficult to effectively learn complex tasks in Minecraft. To address this, this paper introduces an advanced learning system, named Auto MC-Reward, that leverages Large Language Models (LLMs) to automatically design dense reward functions, thereby enhancing the learning efficiency. Auto MC-Reward consists of three important components: Reward Designer, Reward Critic, and Trajectory Analyzer. Given the environment information and task descriptions, the Reward Designer first design the reward function by coding an executable Python function with predefined observation inputs. Then, our Reward Critic will be responsible for verifying the code, checking whether the code is self-consistent and free of syntax and semantic errors. Further, the Trajectory Analyzer summarizes possible failure causes and provides refinement suggestions according to collected trajectories. In the next round, Reward Designer will take further refine and iterate the dense reward function based on feedback. Experiments demonstrate a significant improvement in the success rate and learning efficiency of our agents in complex tasks in Minecraft, such as obtaining diamond with the efficient ability to avoid lava, and efficiently explore trees and animals that are sparse on the plains biome.

arxiv情報

著者 Hao Li,Xue Yang,Zhaokai Wang,Xizhou Zhu,Jie Zhou,Yu Qiao,Xiaogang Wang,Hongsheng Li,Lewei Lu,Jifeng Dai
発行日 2023-12-14 18:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク