Reinforcement Learning via Auxiliary Task Distillation

要約

我々は、補助タスク抽出による強化学習 (AuxDistill) を紹介します。これは、強化学習 (RL) が補助 RL タスクから動作を抽出することによって、長期的なロボット制御問題を実行できるようにする新しい手法です。
AuxDistill は、補助タスクとマルチタスク RL を同時に実行することでこれを実現します。補助タスクは学習が容易で、メイン タスクに関連しています。
加重蒸留損失は、これらの補助タスクからの動作を転送して、主タスクを解決します。
私たちは、AuxDistill が、デモンストレーション、学習カリキュラム、事前訓練されたスキルなしで、環境報酬から、困難な多段階の具体化されたオブジェクトの再配置タスクに対するピクセルからアクションへのポリシーを学習できることを実証します。
AuxDistill は、生息地オブジェクトの再配置ベンチマークにおいて、以前の最先端のベースラインよりも 2.3 ドル高い成功を達成し、事前にトレーニングされたスキルと専門家のデモンストレーションを使用する方法を上回りました。

要約(オリジナル)

We present Reinforcement Learning via Auxiliary Task Distillation (AuxDistill), a new method that enables reinforcement learning (RL) to perform long-horizon robot control problems by distilling behaviors from auxiliary RL tasks. AuxDistill achieves this by concurrently carrying out multi-task RL with auxiliary tasks, which are easier to learn and relevant to the main task. A weighted distillation loss transfers behaviors from these auxiliary tasks to solve the main task. We demonstrate that AuxDistill can learn a pixels-to-actions policy for a challenging multi-stage embodied object rearrangement task from the environment reward without demonstrations, a learning curriculum, or pre-trained skills. AuxDistill achieves $2.3 \times$ higher success than the previous state-of-the-art baseline in the Habitat Object Rearrangement benchmark and outperforms methods that use pre-trained skills and expert demonstrations.

arxiv情報

著者 Abhinav Narayan Harish,Larry Heck,Josiah P. Hanna,Zsolt Kira,Andrew Szot
発行日 2024-06-24 23:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク