要約
分散分布型 DrQ は、エージェントの状態と観察に基づく連続制御タスク用のモデルフリーでオフポリシーの RL アルゴリズムです。これは、データ拡張と批評家価値関数の分布の観点を備えたアクター批評家手法です。
エージェントを制御する方法を学び、高次元の連続空間でいくつかのタスクを習得することを目指します。
DrQ-v2 は DDPG をバックボーンとして使用し、さまざまな継続的な制御タスクで優れたパフォーマンスを実現します。
ここで、分散分散 DrQ は分散分散 DDPG をバックボーンとして使用し、この修正は、分散値関数と分散アクター ポリシーのより優れた表現能力を通じて、一部のハードな連続制御タスクでより良いパフォーマンスを達成することを目的としています。
要約(オリジナル)
Distributed Distributional DrQ is a model-free and off-policy RL algorithm for continuous control tasks based on the state and observation of the agent, which is an actor-critic method with the data-augmentation and the distributional perspective of critic value function. Aim to learn to control the agent and master some tasks in a high-dimensional continuous space. DrQ-v2 uses DDPG as the backbone and achieves out-performance in various continuous control tasks. Here Distributed Distributional DrQ uses Distributed Distributional DDPG as the backbone, and this modification aims to achieve better performance in some hard continuous control tasks through the better expression ability of distributional value function and distributed actor policies.
arxiv情報
著者 | Zehao Zhou |
発行日 | 2024-04-16 15:18:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google