Equivariant Offline Reinforcement Learning

要約

専門家のデモンストレーションを収集するのに高額なコストがかかることと、オンラインの強化学習 (RL) を通じたロボット上のポリシー学習の課題のため、学習ベースの手法をロボット操作に適用する場合、サンプルの効率が非常に重要です。
オフライン RL は、品質に関係なく、任意の動作ポリシーを使用して収集されたオフライン データセットからのポリシー学習を有効にすることで、この問題に対処します。
ただし、オフライン RL の最近の進歩は、主に大規模なデータセットからの学習に焦点を当てています。
多くのロボット操作タスクは回転対称問題として定式化できることを考慮して、限られた数のデモンストレーションでオフライン RL に対する $SO(2)$ 等変ニューラル ネットワークの使用を調査します。
私たちの実験結果は、Conservative Q-Learning (CQL) と Implicit Q-Learning (IQL) の等変バージョンが非等変バージョンよりも優れていることを示しています。
私たちは、等分散性が低データ領域におけるオフライン学習アルゴリズムをどのように改善するかを実証する経験的証拠を提供します。

要約(オリジナル)

Sample efficiency is critical when applying learning-based methods to robotic manipulation due to the high cost of collecting expert demonstrations and the challenges of on-robot policy learning through online Reinforcement Learning (RL). Offline RL addresses this issue by enabling policy learning from an offline dataset collected using any behavioral policy, regardless of its quality. However, recent advancements in offline RL have predominantly focused on learning from large datasets. Given that many robotic manipulation tasks can be formulated as rotation-symmetric problems, we investigate the use of $SO(2)$-equivariant neural networks for offline RL with a limited number of demonstrations. Our experimental results show that equivariant versions of Conservative Q-Learning (CQL) and Implicit Q-Learning (IQL) outperform their non-equivariant counterparts. We provide empirical evidence demonstrating how equivariance improves offline learning algorithms in the low-data regime.

arxiv情報

著者 Arsh Tangri,Ondrej Biza,Dian Wang,David Klee,Owen Howell,Robert Platt
発行日 2024-06-20 03:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク