要約
ロボット工学におけるデータ駆動型制御の適用は数多く成功していますが、意味のある多様な動作を抽出することは依然として課題です。
通常、多様性を実現するには、タスクのパフォーマンスを犠牲にする必要があります。
多くのシナリオでは、タスク要件は多数の報酬条件として指定され、それぞれに異なるトレードオフが必要になります。
この研究では、品質と多様性のトレードオフに関する制約付き最適化の観点を採用し、明確な報酬を通じて定義される価値関数に制約を課しながら、多様なポリシーを取得できることを示します。
以前の研究と同様に、ファンデルワールス力によって動機付けられる誘引-反発報酬項を通じて多様性レベルのさらなる制御を達成できます。
四足ロボットが有限の地平線内のターゲットに到達する必要があるローカル ナビゲーション タスクにおけるこの方法の有効性を実証します。
最後に、訓練されたポリシーは実際の 12-DoF 四足歩行ロボット Solo12 にうまく移行し、障害物をうまく通過して多様な機敏な動作を示します。
要約(オリジナル)
Despite many successful applications of data-driven control in robotics, extracting meaningful diverse behaviors remains a challenge. Typically, task performance needs to be compromised in order to achieve diversity. In many scenarios, task requirements are specified as a multitude of reward terms, each requiring a different trade-off. In this work, we take a constrained optimization viewpoint on the quality-diversity trade-off and show that we can obtain diverse policies while imposing constraints on their value functions which are defined through distinct rewards. In line with previous work, further control of the diversity level can be achieved through an attract-repel reward term motivated by the Van der Waals force. We demonstrate the effectiveness of our method on a local navigation task where a quadruped robot needs to reach the target within a finite horizon. Finally, our trained policies transfer well to the real 12-DoF quadruped robot, Solo12, and exhibit diverse agile behaviors with successful obstacle traversal.
arxiv情報
著者 | Jin Cheng,Marin Vlastelica,Pavel Kolev,Chenhao Li,Georg Martius |
発行日 | 2023-10-03 21:21:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google