Latent Exploration for Reinforcement Learning

要約

強化学習では、エージェントは環境を探索し、環境と対話することによってポリシーを学習します。
次元の呪いにより、高次元の感覚入力を運動出力にマッピングする学習ポリシーは特に困難です。
トレーニング中、最先端の方法 (SAC、PPO など) は、独立したガウス ノイズで作動を乱すことによって環境を探索します。
この非構造化探索は多くのタスクで成功することが証明されていますが、過作動状態のシステムにとっては最適ではないはずです。
モーターや筋肉などの複数のアクチュエーターが動作を駆動する場合、相関関係のない摂動が互いの効果を弱めたり、タスクとは無関係な方法で動作を変更したりする危険があります。
動作の摂動全体に時間相関を導入する解決策は存在しますが、アクチュエータ全体に相関を導入することはほとんど無視されてきました。
ここでは、時間相関ノイズをポリシー ネットワークの潜在状態に注入する方法である LATent 時間相関探索 (ラティス) を提案します。これは、ポリシー上およびポリシー外のアルゴリズムとシームレスに統合できます。
ネットワークの活性化を摂動させることによって生成されるノイズの多いアクションは、完全な共分散行列を持つ多変量ガウス分布としてモデル化できることを示します。
PyBullet 移動タスクでは、Lattice-SAC は最先端の結果を達成し、ヒューマノイド環境での非構造化探索よりも 18% 高い報酬に達しました。
MyoSuite の筋骨格系制御環境では、Lattice-PPO は、ほとんどの到達タスクとオブジェクト操作タスクでより高い報酬を達成すると同時に、20 ~ 60% 削減というよりエネルギー効率の高いポリシーも見つけます。
全体として、複雑なモーター制御タスクに対する時間とアクチュエーターのスペースにおける構造化されたアクション ノイズの有効性を実証します。

要約(オリジナル)

In Reinforcement Learning, agents learn policies by exploring and interacting with the environment. Due to the curse of dimensionality, learning policies that map high-dimensional sensory input to motor output is particularly challenging. During training, state of the art methods (SAC, PPO, etc.) explore the environment by perturbing the actuation with independent Gaussian noise. While this unstructured exploration has proven successful in numerous tasks, it ought to be suboptimal for overactuated systems. When multiple actuators, such as motors or muscles, drive behavior, uncorrelated perturbations risk diminishing each other’s effect, or modifying the behavior in a task-irrelevant way. While solutions to introduce time correlation across action perturbations exist, introducing correlation across actuators has been largely ignored. Here, we propose LATent TIme-Correlated Exploration (Lattice), a method to inject temporally-correlated noise into the latent state of the policy network, which can be seamlessly integrated with on- and off-policy algorithms. We demonstrate that the noisy actions generated by perturbing the network’s activations can be modeled as a multivariate Gaussian distribution with a full covariance matrix. In the PyBullet locomotion tasks, Lattice-SAC achieves state of the art results, and reaches 18% higher reward than unstructured exploration in the Humanoid environment. In the musculoskeletal control environments of MyoSuite, Lattice-PPO achieves higher reward in most reaching and object manipulation tasks, while also finding more energy-efficient policies with reductions of 20-60%. Overall, we demonstrate the effectiveness of structured action noise in time and actuator space for complex motor control tasks.

arxiv情報

著者 Alberto Silvio Chiappa,Alessandro Marin Vargas,Ann Zixiang Huang,Alexander Mathis
発行日 2023-05-31 17:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, q-bio.NC パーマリンク