要約
強化学習 (RL) は、複雑なタスクの学習ポリシーで有望な結果を示していますが、多くの場合、サンプル効率が低く、転送が制限されるという問題が発生する可能性があります。
このアルゴリズムは、学習されたインタラクション検出器を使用して、因子化された環境で要因を操作するスキルの階層を発見し、トレーニングします。
グレンジャーの因果関係にヒントを得たこれらの教師なし検出器は、因子間の重要なイベントを捕捉して、有用なスキルを効率的にサンプリングして学習し、それらのスキルを他の関連タスク (多くの強化学習手法が困難を伴うタスク) に転送します。
私たちは、障害物のあるロボットによる押しタスクで HIntS を評価します。このタスクは、他の RL および HRL 手法が及ばない難しい領域です。
学習したスキルは、一般的な RL ベンチマークである Breakout のバリアントを使用した転送を実証するだけでなく、同等の RL ベースラインと比較してサンプル効率と最終パフォーマンスの両方で 2 ~ 3 倍の向上を示します。
HIntS は共に、スキル発見にグレンジャーと因果関係を使用するための概念実証を示します。
要約(オリジナル)
Reinforcement Learning (RL) has shown promising results learning policies for complex tasks, but can often suffer from low sample efficiency and limited transfer. We introduce the Hierarchy of Interaction Skills (HIntS) algorithm, which uses learned interaction detectors to discover and train a hierarchy of skills that manipulate factors in factored environments. Inspired by Granger causality, these unsupervised detectors capture key events between factors to sample efficiently learn useful skills and transfer those skills to other related tasks — tasks where many reinforcement learning techniques struggle. We evaluate HIntS on a robotic pushing task with obstacles — a challenging domain where other RL and HRL methods fall short. The learned skills not only demonstrate transfer using variants of Breakout, a common RL benchmark, but also show 2-3x improvement in both sample efficiency and final performance compared to comparable RL baselines. Together, HIntS demonstrates a proof of concept for using Granger-causal relationships for skill discovery.
arxiv情報
著者 | Caleb Chuck,Kevin Black,Aditya Arjun,Yuke Zhu,Scott Niekum |
発行日 | 2023-06-15 21:06:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google