要約
深層強化学習は、最適なソリューションが不明瞭な環境でポリシーを開発するための強力なツールであることがわかっています。
この論文では、Twin Delayed Deep Deterministic Policy Gradients を適用して、クアッドコプターの速度コントローラーとして機能するニューラル ネットワークをトレーニングすることを試みます。
クアッドコプターの目的は、ゲートへの衝突を避けながらゲートを素早く飛行することです。
訓練されたポリシーを実験室環境のクアッドコプターに展開することで、現実世界に転送します。
最後に、訓練されたポリシーが現実世界でドローンをゲートまでナビゲートできることを示します。
要約(オリジナル)
Deep Reinforcement learning has shown to be a powerful tool for developing policies in environments where an optimal solution is unclear. In this paper, we attempt to apply Twin Delayed Deep Deterministic Policy Gradients to train a neural network to act as a velocity controller for a quadcopter. The quadcopter’s objective is to quickly fly through a gate while avoiding crashing into the gate. We transfer our trained policy to the real world by deploying it on a quadcopter in a laboratory environment. Finally, we demonstrate that the trained policy is able to navigate the drone to the gate in the real world.
arxiv情報
著者 | Patrick Thomas,Kevin Schroeder,Jonathan Black |
発行日 | 2024-12-18 22:04:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google