要約
強化学習 (RL) を使用して宇宙船の運用の自律制御を学習する最近の研究は、大きな成功を収めています。
しかし、最近の研究では、学習環境で使用されるアクションスペース、つまり制御出力を変更することでパフォーマンスを向上できることが示されました。
これにより、環境をさらに変えることでさらなる改善を見つけるための扉が開かれました。
この論文の研究は、環境の観測空間の変化が、宇宙船検査タスクを学習する RL エージェントの訓練とパフォーマンスにどのような影響を与える可能性があるかに焦点を当てています。
研究は 2 つのグループに分けられます。
1 つ目は、エージェントがタスクを学習できるように設計されたセンサーの影響を調べます。
2 つ目は参照フレームの影響を調べ、エージェントの方向を変えて世界を別の視点から見るようにします。
結果は、センサーは必要ではありませんが、センサーのほとんどはエージェントがより最適な動作を学習するのに役立ち、参照フレームは大きな影響を与えませんが、一貫性を保つのが最善であることを示しています。
要約(オリジナル)
Recent research using Reinforcement Learning (RL) to learn autonomous control for spacecraft operations has shown great success. However, a recent study showed their performance could be improved by changing the action space, i.e. control outputs, used in the learning environment. This has opened the door for finding more improvements through further changes to the environment. The work in this paper focuses on how changes to the environment’s observation space can impact the training and performance of RL agents learning the spacecraft inspection task. The studies are split into two groups. The first looks at the impact of sensors that were designed to help agents learn the task. The second looks at the impact of reference frames, reorienting the agent to see the world from a different perspective. The results show the sensors are not necessary, but most of them help agents learn more optimal behavior, and that the reference frame does not have a large impact, but is best kept consistent.
arxiv情報
著者 | Nathaniel Hamilton,Kyle Dunlap,Kerianne L Hobbs |
発行日 | 2025-01-10 14:53:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google