要約
私たちは、基礎モデルを教師として活用し、強化学習エージェントが人間のフィードバックなしで意味的に意味のある動作を獲得できるように導くフレームワークを提案します。
私たちのフレームワークでは、エージェントは大規模な言語モデルからトレーニング環境に基づいたタスクの指示を受け取ります。
次に、ビジョン言語モデルが報酬フィードバックを提供することで、エージェントがマルチタスクの言語条件付きポリシーを学習できるようにガイドします。
以前の教師なしスキル発見メソッドが困難である一方で、私たちのメソッドは挑戦的なオープンエンドの MineDojo 環境で意味的に意味のあるスキルを学習できることを実証します。
さらに、既製の基礎モデルを教師として使用する際に観察された課題と、それらに対処するための取り組みについても説明します。
要約(オリジナル)
We propose a framework that leverages foundation models as teachers, guiding a reinforcement learning agent to acquire semantically meaningful behavior without human feedback. In our framework, the agent receives task instructions grounded in a training environment from large language models. Then, a vision-language model guides the agent in learning the multi-task language-conditioned policy by providing reward feedback. We demonstrate that our method can learn semantically meaningful skills in a challenging open-ended MineDojo environment while prior unsupervised skill discovery methods struggle. Additionally, we discuss observed challenges of using off-the-shelf foundation models as teachers and our efforts to address them.
arxiv情報
著者 | Taewook Nam,Juyong Lee,Jesse Zhang,Sung Ju Hwang,Joseph J. Lim,Karl Pertsch |
発行日 | 2023-12-14 14:07:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google