Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications

要約

学習ベースの技術、特に強化学習をロボット工学に統合することは、非構造化環境における複雑な問題の解決に有望です。
ただし、既存のアプローチのほとんどは、適切に調整されたシミュレーターでトレーニングされ、その後オンラインで微調整することなく実際のロボットに展開されます。
この設定では、シミュレーションのリアリズムが展開の成功率に重大な影響を与えます。
代わりに、実世界のインタラクション データを使用した学習は、有望な代替手段を提供します。これにより、微調整されたシミュレーターの必要性がなくなるだけでなく、正確なモデリングが不可能な幅広いタスクに適用できます。
ロボット上での強化学習の大きな問題の 1 つは安全性の確保です。制御されていない探索はロボットや環境に壊滅的なダメージを与える可能性があるためです。
実際、制約として表されることが多い安全仕様は複雑で非線形になる可能性があるため、学習システムで安全を保証することが困難になります。
この論文では、理論と実践の両方の観点から、原理的な方法で学習ベースのロボット工学システムに複雑な安全制約を課す方法を示します。
私たちのアプローチは、安全なロボット構成のセットを表す拘束マニホールドの概念に基づいています。
微分幾何学手法、つまり接線空間を利用することで、安全なアクション空間を構築でき、学習エージェントが安全を確保しながら任意のアクションをサンプリングできるようになります。
現実世界のロボット エア ホッケー タスクでこの方法の有効性を実証し、この方法が複雑な制約のある高次元タスクを処理できることを示します。
実際のロボット実験のビデオは、プロジェクトの Web サイト (https://puzeliu.github.io/TRO-ATACOM) でご覧いただけます。

要約(オリジナル)

Integrating learning-based techniques, especially reinforcement learning, into robotics is promising for solving complex problems in unstructured environments. However, most existing approaches are trained in well-tuned simulators and subsequently deployed on real robots without online fine-tuning. In this setting, the simulation’s realism seriously impacts the deployment’s success rate. Instead, learning with real-world interaction data offers a promising alternative: not only eliminates the need for a fine-tuned simulator but also applies to a broader range of tasks where accurate modeling is unfeasible. One major problem for on-robot reinforcement learning is ensuring safety, as uncontrolled exploration can cause catastrophic damage to the robot or the environment. Indeed, safety specifications, often represented as constraints, can be complex and non-linear, making safety challenging to guarantee in learning systems. In this paper, we show how we can impose complex safety constraints on learning-based robotics systems in a principled manner, both from theoretical and practical points of view. Our approach is based on the concept of the Constraint Manifold, representing the set of safe robot configurations. Exploiting differential geometry techniques, i.e., the tangent space, we can construct a safe action space, allowing learning agents to sample arbitrary actions while ensuring safety. We demonstrate the method’s effectiveness in a real-world Robot Air Hockey task, showing that our method can handle high-dimensional tasks with complex constraints. Videos of the real robot experiments are available on the project website (https://puzeliu.github.io/TRO-ATACOM).

arxiv情報

著者 Puze Liu,Haitham Bou-Ammar,Jan Peters,Davide Tateo
発行日 2024-04-13 20:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク