要約
連続時間の強化学習タスクでは、通常、アクションに固定サイクル時間の離散ステップが使用されます。
実践者は特定のタスクのアクションサイクル時間を選択する必要があるため、大きな懸念は、サイクルタイムの選択ごとに学習アルゴリズムのハイパーパラメーターを再調整する必要があるかどうかです。これは現実世界のロボット工学では法外です。
。
この研究では、異なるサイクル タイムにわたる 2 つのポリシー勾配アルゴリズム (PPO と SAC) の広く使用されているベースライン ハイパーパラメータ値を調査します。
両方のアルゴリズムのベースライン ハイパーパラメータが適切に機能することが示されたベンチマーク タスクを使用すると、タスクのデフォルトとは異なるサイクル タイムが選択された場合、ベースライン ハイパーパラメータを持つ PPO が学習に失敗することが明らかになりました。
さらに、ベースライン ハイパーパラメータを備えた PPO と SAC は両方とも、各サイクル タイムで調整された値よりも大幅にパフォーマンスが低下します。
私たちは、サイクルタイムに基づいてこれらのハイパーパラメータを設定するための新しいアプローチを提案します。
シミュレートされた現実世界のロボット タスクに関する実験では、提案されたアプローチは、サイクル タイムのほとんどの選択肢で大幅に優れたパフォーマンスを示し、少なくともベースラインのハイパーパラメータと同等の性能を発揮し、どのサイクル タイムでも学習失敗を引き起こすことはありませんでした。
。
ハイパーパラメータ調整は、依然として実世界のロボット工学にとって大きな障壁となっています。なぜなら、私たちのアプローチでは、サイクルタイムごとに大規模な調整を行うことに比べれば無視できるものではあるものの、新しいタスクである程度の初期調整が必要だからです。
私たちのアプローチは、特定のタスクのサイクル タイムを変更した後に追加の調整を必要とせず、現実世界のポリシー最適化のための大規模でコストのかかるハイパーパラメーター調整を回避するための一歩となります。
要約(オリジナル)
Continuous-time reinforcement learning tasks commonly use discrete steps of fixed cycle times for actions. As practitioners need to choose the action-cycle time for a given task, a significant concern is whether the hyper-parameters of the learning algorithm need to be re-tuned for each choice of the cycle time, which is prohibitive for real-world robotics. In this work, we investigate the widely-used baseline hyper-parameter values of two policy gradient algorithms — PPO and SAC — across different cycle times. Using a benchmark task where the baseline hyper-parameters of both algorithms were shown to work well, we reveal that when a cycle time different than the task default is chosen, PPO with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with their baseline hyper-parameters perform substantially worse than their tuned values for each cycle time. We propose novel approaches for setting these hyper-parameters based on the cycle time. In our experiments on simulated and real-world robotic tasks, the proposed approaches performed at least as well as the baseline hyper-parameters, with significantly better performance for most choices of the cycle time, and did not result in learning failure for any cycle time. Hyper-parameter tuning still remains a significant barrier for real-world robotics, as our approaches require some initial tuning on a new task, even though it is negligible compared to an extensive tuning for each cycle time. Our approach requires no additional tuning after the cycle time is changed for a given task and is a step toward avoiding extensive and costly hyper-parameter tuning for real-world policy optimization.
arxiv情報
著者 | Homayoon Farrahi,A. Rupam Mahmood |
発行日 | 2023-05-31 18:37:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google