Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization

要約

タイトル:リアルワールドポリシー最適化のサイクルタイムチューニングのコスト削減

要約:
– 継続的な強化学習タスクでは、アクションのために固定サイクル時間の離散ステップが一般的に使用される。
– 実践者は、与えられたタスクに対してアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータがサイクル時間毎に再調整する必要があるかどうかが重要であり、実世界のロボット技術にとっては負担となっています。
– 本研究では、PPOとSACの2つのポリシーグラディエントアルゴリズムの基準ハイパーパラメータ値が、異なるサイクル時間で広く使用されていることを調査しました。
– 基準ハイパーパラメータがうまく機能していることが示されたベンチマークタスクを使用して調査したところ、タスクデフォルトと異なるサイクル時間が選択された場合、基準ハイパーパラメータを使用したPPOは学習に失敗することが明らかになりました。
– さらに、両方のアルゴリズムで、サイクル時間ごとに調整された値よりも基準ハイパーパラメータを使用した場合、性能が著しく悪化することがわかりました。
– 私たちは、サイクル時間に基づいてこれらのハイパーパラメータを設定するための新しいアプローチを提案します。
– シミュレートされたロボットタスクと実世界のロボットタスクでの私たちの実験では、提案されたアプローチは少なくとも基準ハイパーパラメータと同じくらいの性能を発揮し、大部分のサイクルタイムにおいて著しく優れた性能を発揮し、どのサイクルタイムにおいても学習失敗を引き起こすことはありませんでした。
– ハイパーパラメータのチューニングはまだ実世界のロボット技術にとって大きな障壁であり、私たちのアプローチは新しいタスクに対して初期チューニングを必要としますが、サイクル時間ごとの広範なチューニングに比べて無視できるものです。
– 私たちのアプローチは、与えられたタスクのサイクルタイムが変更された後に追加のチューニングを必要とせず、リアルワールドのポリシー最適化の広範なハイパーパラメータチューニングの回避に向けた一歩となっています。

要約(オリジナル)

Continuous-time reinforcement learning tasks commonly use discrete steps of fixed cycle times for actions. As practitioners need to choose the action-cycle time for a given task, a significant concern is whether the hyper-parameters of the learning algorithm need to be re-tuned for each choice of the cycle time, which is prohibitive for real-world robotics. In this work, we investigate the widely-used baseline hyper-parameter values of two policy gradient algorithms — PPO and SAC — across different cycle times. Using a benchmark task where the baseline hyper-parameters of both algorithms were shown to work well, we reveal that when a cycle time different than the task default is chosen, PPO with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with their baseline hyper-parameters perform substantially worse than their tuned values for each cycle time. We propose novel approaches for setting these hyper-parameters based on the cycle time. In our experiments on simulated and real-world robotic tasks, the proposed approaches performed at least as well as the baseline hyper-parameters, with significantly better performance for most choices of the cycle time, and did not result in learning failure for any cycle time. Hyper-parameter tuning still remains a significant barrier for real-world robotics, as our approaches require some initial tuning on a new task, even though it is negligible compared to an extensive tuning for each cycle time. Our approach requires no additional tuning after the cycle time is changed for a given task and is a step toward avoiding extensive and costly hyper-parameter tuning for real-world policy optimization.

arxiv情報

著者 Homayoon Farrahi,A. Rupam Mahmood
発行日 2023-05-09 20:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク