Geometric Reinforcement Learning For Robotic Manipulation

要約

強化学習 (RL) は、エージェントが動的な環境と対話しながら試行錯誤によって学習できるようにする一般的な手法です。
従来の強化学習 (RL) アプローチは、位置、速度、力などのユークリッドロボット操作スキルの学習と予測に成功しています。
ただし、ロボット工学では、方向や剛性などの非ユークリッド データに遭遇するのが一般的であり、その幾何学的性質を考慮しないと、学習の精度やパフォーマンスに悪影響を及ぼす可能性があります。
この論文では、この課題に対処するために、リーマン幾何学を活用する新しい RL フレームワークを提案します。これを幾何強化学習 (G-RL) と呼び、エージェントが非ユークリッド データを使用してロボット操作スキルを学習できるようにします。
具体的には、G-RL は、パラメータ化のための接線空間と、非ユークリッド多様体へのマッピングのためのローカル接線空間という 2 つの方法で接線空間を利用します。
ポリシーはパラメータ化接線空間で学習され、トレーニングを通じて一定のままになります。
次に、ポリシーは平行移動を介してローカル接線空間に転送され、非ユークリッド多様体に投影されます。
ローカル接線空間は時間の経過とともに変化し、現在の多様体点の近傍内に留まり、近似誤差が減少します。
したがって、幾何学的に根拠のある前処理および後処理ステップを従来の RL パイプラインに導入することで、G-RL フレームワークは、ユークリッド空間用に設計されたいくつかのモデルフリー アルゴリズムが、変更を加えずに非ユークリッド データから学習できるようにします。
シミュレーションと実際のロボットの両方で得られた実験結果は、G-RL が非ユークリッド データを近似するよりも正確で、より良い解に収束するという仮説を裏付けています。

要約(オリジナル)

Reinforcement learning (RL) is a popular technique that allows an agent to learn by trial and error while interacting with a dynamic environment. The traditional Reinforcement Learning (RL) approach has been successful in learning and predicting Euclidean robotic manipulation skills such as positions, velocities, and forces. However, in robotics, it is common to encounter non-Euclidean data such as orientation or stiffness, and failing to account for their geometric nature can negatively impact learning accuracy and performance. In this paper, to address this challenge, we propose a novel framework for RL that leverages Riemannian geometry, which we call Geometric Reinforcement Learning (G-RL), to enable agents to learn robotic manipulation skills with non-Euclidean data. Specifically, G-RL utilizes the tangent space in two ways: a tangent space for parameterization and a local tangent space for mapping to a nonEuclidean manifold. The policy is learned in the parameterization tangent space, which remains constant throughout the training. The policy is then transferred to the local tangent space via parallel transport and projected onto the non-Euclidean manifold. The local tangent space changes over time to remain within the neighborhood of the current manifold point, reducing the approximation error. Therefore, by introducing a geometrically grounded pre- and post-processing step into the traditional RL pipeline, our G-RL framework enables several model-free algorithms designed for Euclidean space to learn from non-Euclidean data without modifications. Experimental results, obtained both in simulation and on a real robot, support our hypothesis that G-RL is more accurate and converges to a better solution than approximating non-Euclidean data.

arxiv情報

著者 Naseem Alhousani,Matteo Saveriano,Ibrahim Sevinc,Talha Abdulkuddus,Hatice Kose,Fares J. Abu-Dakka
発行日 2023-09-13 22:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク