要約
強化学習には環境との相互作用が必要であり、ロボットにとってはコストがかかります。
この制約により、以前の経験の再利用を最大化することにより、限られた環境相互作用で機能するアプローチが必要になります。
有用な補助タスクを生成し、同時に学習することにより、特定のタスクを解決することを学習しながら、経験の再利用を最大化するアプローチを提案します。
これらのタスクを生成するために、特定のタスクの抽象的な時相論理表現を構築し、大規模な言語モデルを活用して、オブジェクトの置換を容易にするコンテキスト認識型のオブジェクト埋め込みを生成します。
反事実推論とポリシー外の方法により、指定されたターゲットタスクを解決しながら、これらの補助タスクを同時に学習できます。
これらの洞察をマルチタスク強化学習の新しいフレームワークに組み合わせ、生成された補助タスクが特定のタスクと同様の基本的な探索要件を共有することを実験的に示し、それによって有向探索の有用性を最大化します。
私たちのアプローチにより、エージェントは追加の環境操作なしで、追加の有用なポリシーを自動的に学習できます。
要約(オリジナル)
Reinforcement learning requires interaction with an environment, which is expensive for robots. This constraint necessitates approaches that work with limited environmental interaction by maximizing the reuse of previous experiences. We propose an approach that maximizes experience reuse while learning to solve a given task by generating and simultaneously learning useful auxiliary tasks. To generate these tasks, we construct an abstract temporal logic representation of the given task and leverage large language models to generate context-aware object embeddings that facilitate object replacements. Counterfactual reasoning and off-policy methods allow us to simultaneously learn these auxiliary tasks while solving the given target task. We combine these insights into a novel framework for multitask reinforcement learning and experimentally show that our generated auxiliary tasks share similar underlying exploration requirements as the given task, thereby maximizing the utility of directed exploration. Our approach allows agents to automatically learn additional useful policies without extra environment interaction.
arxiv情報
著者 | Benedict Quartey,Ankit Shah,George Konidaris |
発行日 | 2023-03-09 05:11:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google