要約
この研究では、まず目標条件付き強化学習を使用してロボットによる水すくいの問題を定式化します。
このタスクは、流体の複雑な力学と複数のモードの目標を達成する必要があるため、特に困難です。
ポリシーは位置目標と水量目標の両方を正常に達成する必要があるため、目標状態空間が大きく複雑になります。
これらの課題を克服するために、ロボットすくい作業のための効果的かつ一般化可能なポリシーを学習できるカリキュラム強化学習手法である、すくいのための目標サンプリング適応(GOATS)を導入します。
具体的には、目標因数分解報酬定式化を使用し、位置目標分布と金額目標分布を補間して、学習プロセス全体にわたるカリキュラムを作成します。
その結果、提案手法はシミュレーションのベースラインを上回る性能を発揮し、タンク内の初期水状態の 1000 種類の変化と大きな目標状態空間の下で、ボウルすくいタスクとバケツすくいタスクでそれぞれ 5.46% と 8.71% の量誤差を達成できます。
シミュレーション環境で効果的であることに加えて、私たちの方法は、さまざまな物理的構成と目に見えない設定を伴う、騒がしい実際のロボットの水汲みシナリオに効率的に適応でき、優れた有効性と汎用性を実証します。
この作業のビデオは、プロジェクト ページ https://sites.google.com/view/goatscooping でご覧いただけます。
要約(オリジナル)
In this work, we first formulate the problem of robotic water scooping using goal-conditioned reinforcement learning. This task is particularly challenging due to the complex dynamics of fluid and the need to achieve multi-modal goals. The policy is required to successfully reach both position goals and water amount goals, which leads to a large convoluted goal state space. To overcome these challenges, we introduce Goal Sampling Adaptation for Scooping (GOATS), a curriculum reinforcement learning method that can learn an effective and generalizable policy for robot scooping tasks. Specifically, we use a goal-factorized reward formulation and interpolate position goal distributions and amount goal distributions to create curriculum throughout the learning process. As a result, our proposed method can outperform the baselines in simulation and achieves 5.46% and 8.71% amount errors on bowl scooping and bucket scooping tasks, respectively, under 1000 variations of initial water states in the tank and a large goal state space. Besides being effective in simulation environments, our method can efficiently adapt to noisy real-robot water-scooping scenarios with diverse physical configurations and unseen settings, demonstrating superior efficacy and generalizability. The videos of this work are available on our project page: https://sites.google.com/view/goatscooping.
arxiv情報
著者 | Yaru Niu,Shiyu Jin,Zeqing Zhang,Jiacheng Zhu,Ding Zhao,Liangjun Zhang |
発行日 | 2023-05-26 02:23:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google