要約
補強学習環境での変圧器アーキテクチャに基づいて、エージェントをポリシーでエージェントにトレーニングする能力を調査します。
OpenAIの高度に並列化可能な進化戦略を使用して実験を行い、ヒューマノイド移動環境とAtariゲームの環境で意思決定トランスを訓練し、このブラックボックス最適化技術がこのような比較的大きく複雑なモデルでさえトレーニングする能力をテストしました(以前にテストされたモデルと比較して
文献で)。
また、Openai-ESを使用してさらに訓練する前に、モデルを最初に前から訓練することにより、トレーニングを支援する方法を提案し、その有効性をテストしました。
調査された進化戦略は、一般に、強力な結果を達成することができることが証明され、高性能なエージェントを獲得することができました。
したがって、前orainingは不要であることが示されました。
それでも、それは私たちがいくつかのさらなる洞察を観察し、策定するのに役立ちました。
要約(オリジナル)
We explore a capability of evolution strategies to train an agent with its policy based on a transformer architecture in a reinforcement learning setting. We performed experiments using OpenAI’s highly parallelizable evolution strategy to train Decision Transformer in Humanoid locomotion environment and in the environment of Atari games, testing the ability of this black-box optimization technique to train even such relatively large and complicated models (compared to those previously tested in the literature). We also proposed a method to aid the training by first pretraining the model before using the OpenAI-ES to train it further, and tested its effectiveness. The examined evolution strategy proved to be, in general, capable of achieving strong results and managed to obtain high-performing agents. Therefore, the pretraining was shown to be unnecessary; yet still, it helped us observe and formulate several further insights.
arxiv情報
著者 | Matyáš Lorenc |
発行日 | 2025-01-23 17:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google