Exploiting Contextual Structure to Generate Useful Auxiliary Tasks

要約

強化学習には環境との相互作用が必要であり、ロボットにとってはコストがかかる。この制約から、過去の経験の再利用を最大化することで、限られた環境との相互作用で動作するアプローチが必要となる。我々は、有用な補助タスクを生成し、同時に学習することで、与えられたタスクを解く学習中に経験の再利用を最大化するアプローチを提案する。これらのタスクを生成するために、我々は与えられたタスクの抽象的な時間論理表現を構築し、大規模な言語モデルを活用して、オブジェクトの置き換えを容易にするコンテキストを考慮したオブジェクト埋め込みを生成する。反実仮想推論とオフポリシー手法により、与えられたターゲットタスクを解きながら、これらの補助タスクを同時に学習することができる。我々はこれらの知見をマルチタスク強化学習の新しいフレームワークに統合し、生成された補助タスクが与えられたタスクと同様の探索要件を共有し、それによって有向探索の有用性を最大化することを実験的に示す。我々のアプローチにより、エージェントは余分な環境との相互作用なしに、さらに有用な方針を自動的に学習することができる。

要約(オリジナル)

Reinforcement learning requires interaction with an environment, which is expensive for robots. This constraint necessitates approaches that work with limited environmental interaction by maximizing the reuse of previous experiences. We propose an approach that maximizes experience reuse while learning to solve a given task by generating and simultaneously learning useful auxiliary tasks. To generate these tasks, we construct an abstract temporal logic representation of the given task and leverage large language models to generate context-aware object embeddings that facilitate object replacements. Counterfactual reasoning and off-policy methods allow us to simultaneously learn these auxiliary tasks while solving the given target task. We combine these insights into a novel framework for multitask reinforcement learning and experimentally show that our generated auxiliary tasks share similar underlying exploration requirements as the given task, thereby maximizing the utility of directed exploration. Our approach allows agents to automatically learn additional useful policies without extra environment interaction.

arxiv情報

著者 Benedict Quartey,Ankit Shah,George Konidaris
発行日 2024-04-04 05:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク