要約
深層強化学習 (DRL) は、近年、シミュレートされたロボット制御タスクと現実世界のロボット制御タスクの両方で大幅な進歩を遂げました。
これは、完全な状態表現を使用して慎重に設計でき、マルコフ決定プロセス (MDP) として定式化できるタスクの場合に特に当てはまります。
ただし、MDP 用に設計された DRL 戦略を新しいロボット制御タスクに適用することは、困難な場合があります。利用可能な観測値が状態の部分的な表現である可能性があり、部分的に観測可能なマルコフ決定プロセス (POMDP) が発生するためです。
このペーパーでは、MDP 用に考案された 3 つの一般的な DRL アルゴリズム、つまり Proximal Policy Optimization (PPO)、Twin Delayed Deep Deterministic Policy Gradient (TD3)、および Soft Actor-Critic (SAC) を検討し、POMDP シナリオでのパフォーマンスを研究します。
これまでの研究では、SAC と TD3 が通常、MDP として表現できる幅広いタスクにわたって PPO よりも優れたパフォーマンスを発揮することがわかっていますが、我々は 3 つの代表的な POMDP 環境を使用して、常にそうとは限らないことを示しました。
実証研究によると、これはマルチステップ ブートストラップに関連しており、観察とアクションのペアの目標値推定を計算するために、1 ステップの即時報酬ではなく、マルチステップの即時報酬が使用されます。
TD3 (MTD3) および SAC (MSAC) にマルチステップ ブートストラップを組み込むと、POMDP 設定の堅牢性が向上することを観察することで、これを特定します。
要約(オリジナル)
Deep Reinforcement Learning (DRL) has made tremendous advances in both simulated and real-world robot control tasks in recent years. This is particularly the case for tasks that can be carefully engineered with a full state representation, and which can then be formulated as a Markov Decision Process (MDP). However, applying DRL strategies designed for MDPs to novel robot control tasks can be challenging, because the available observations may be a partial representation of the state, resulting in a Partially Observable Markov Decision Process (POMDP). This paper considers three popular DRL algorithms, namely Proximal Policy Optimization (PPO), Twin Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC), invented for MDPs, and studies their performance in POMDP scenarios. While prior work has found that SAC and TD3 typically outperform PPO across a broad range of tasks that can be represented as MDPs, we show that this is not always the case, using three representative POMDP environments. Empirical studies show that this is related to multi-step bootstrapping, where multi-step immediate rewards, instead of one-step immediate reward, are used to calculate the target value estimation of an observation and action pair. We identify this by observing that the inclusion of multi-step bootstrapping in TD3 (MTD3) and SAC (MSAC) results in improved robustness in POMDP settings.
arxiv情報
著者 | Lingheng Meng,Rob Gorbet,Michael Burke,Dana Kulić |
発行日 | 2025-01-15 04:45:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google