Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

要約

私たちは BOSS を提案します。これは、最小限の監督で学習したスキル ライブラリを成長させることで、長期にわたる複雑で意味のある新しいタスクを解決する方法を自動的に学習するアプローチです。
強化学習におけるこれまでの研究では、長期的なタスクを学習するには、デモンストレーションや豊富な報酬関数の形で専門家の監督が必要でした。
代わりに、私たちのアプローチである BOSS (BOotStrapping your own Skills) は、「スキル ブートストラップ」を実行することによって新しいタスクを達成することを学習します。この方法では、一連の原始的なスキルを持つエージェントが環境と対話して、最初のスキル以外のタスクに対する報酬フィードバックを受け取ることなく、新しいスキルを練習します。
スキルセット。
このブートストラップ フェーズは、連鎖する意味のあるスキルをエージェントに通知する大規模言語モデル (LLM) によってガイドされます。
このプロセスを通じて、BOSS は基本的な一連の原始的なスキルから、広範囲にわたる複雑で有用な動作を構築します。
私たちは、現実的な家庭環境での実験を通じて、LLM ガイド付きブートストラップ手順でトレーニングされたエージェントが、新しい環境での目に見えない長期的なタスクのゼロショット実行において、単純なブートストラップや以前の教師なしスキル習得方法でトレーニングされたエージェントよりも優れたパフォーマンスを発揮することを実証しました。
ウェブサイト clvrai.com/boss。

要約(オリジナル)

We propose BOSS, an approach that automatically learns to solve new long-horizon, complex, and meaningful tasks by growing a learned skill library with minimal supervision. Prior work in reinforcement learning require expert supervision, in the form of demonstrations or rich reward functions, to learn long-horizon tasks. Instead, our approach BOSS (BOotStrapping your own Skills) learns to accomplish new tasks by performing ‘skill bootstrapping,’ where an agent with a set of primitive skills interacts with the environment to practice new skills without receiving reward feedback for tasks outside of the initial skill set. This bootstrapping phase is guided by large language models (LLMs) that inform the agent of meaningful skills to chain together. Through this process, BOSS builds a wide range of complex and useful behaviors from a basic set of primitive skills. We demonstrate through experiments in realistic household environments that agents trained with our LLM-guided bootstrapping procedure outperform those trained with naive bootstrapping as well as prior unsupervised skill acquisition methods on zero-shot execution of unseen, long-horizon tasks in new environments. Website at clvrai.com/boss.

arxiv情報

著者 Jesse Zhang,Jiahui Zhang,Karl Pertsch,Ziyi Liu,Xiang Ren,Minsuk Chang,Shao-Hua Sun,Joseph J. Lim
発行日 2023-10-17 12:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク