要約
対称性は、現実世界の多くのロボット タスクの基本的な側面です。
ただし、現在の深層強化学習 (DRL) アプローチでは、対称性を効果的に利用して活用することはほとんどできません。
多くの場合、学習された動作は望ましい変換不変性を達成できず、モーション アーティファクトが発生します。
たとえば、四足動物は、胴体に関して対称であっても、前方または後方に移動するよう命令されると、異なる歩き方を示すことがあります。
この問題は、DRL 手法が局所最適になりやすく、状態空間の領域を均等に探索できない高次元または複雑な環境ではさらに顕著になります。
ロボットタスクの対称性を促進するこれまでの手法では、主にシングルタスク設定でこのテーマが研究されており、対称性とは通常、歩行パターンなどの動作の対称性を指します。
この論文では、ロボット工学における目標条件付きタスクについてこのトピックを再検討します。対称性は主にタスクの実行にあり、必ずしも学習された動作自体にはありません。
特に、対称性の不変性を DRL に組み込むための 2 つのアプローチ、つまりデータ拡張とミラー損失関数を調査します。
私たちは、ポリシー設定で拡張サンプルを使用するための理論的基盤を提供します。
これに基づいて、四足歩行による箱のぼりから器用な操作まで、さまざまな困難なロボットタスクにおいて、対応するアプローチがより高速な収束を達成し、学習された動作を改善することを示します。
要約(オリジナル)
Symmetry is a fundamental aspect of many real-world robotic tasks. However, current deep reinforcement learning (DRL) approaches can seldom harness and exploit symmetry effectively. Often, the learned behaviors fail to achieve the desired transformation invariances and suffer from motion artifacts. For instance, a quadruped may exhibit different gaits when commanded to move forward or backward, even though it is symmetrical about its torso. This issue becomes further pronounced in high-dimensional or complex environments, where DRL methods are prone to local optima and fail to explore regions of the state space equally. Past methods on encouraging symmetry for robotic tasks have studied this topic mainly in a single-task setting, where symmetry usually refers to symmetry in the motion, such as the gait patterns. In this paper, we revisit this topic for goal-conditioned tasks in robotics, where symmetry lies mainly in task execution and not necessarily in the learned motions themselves. In particular, we investigate two approaches to incorporate symmetry invariance into DRL — data augmentation and mirror loss function. We provide a theoretical foundation for using augmented samples in an on-policy setting. Based on this, we show that the corresponding approach achieves faster convergence and improves the learned behaviors in various challenging robotic tasks, from climbing boxes with a quadruped to dexterous manipulation.
arxiv情報
| 著者 | Mayank Mittal,Nikita Rudin,Victor Klemm,Arthur Allshire,Marco Hutter | 
| 発行日 | 2024-03-07 09:41:11+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
