Implementing TD3 to train a Neural Network to fly a Quadcopter through an FPV Gate

要約

深層強化学習は、最適なソリューションが不明瞭な環境でポリシーを開発するための強力なツールであることがわかっています。
この論文では、Twin Delayed Deep Deterministic Policy Gradients を適用して、クアッドコプターの速度コントローラーとして機能するニューラル ネットワークをトレーニングすることを試みます。
クアッドコプターの目的は、ゲートへの衝突を避けながらゲートを素早く飛行することです。
訓練されたポリシーを実験室環境のクアッドコプターに展開することで、現実世界に転送します。
最後に、訓練されたポリシーが現実世界でドローンをゲートまでナビゲートできることを示します。

要約(オリジナル)

Deep Reinforcement learning has shown to be a powerful tool for developing policies in environments where an optimal solution is unclear. In this paper, we attempt to apply Twin Delayed Deep Deterministic Policy Gradients to train a neural network to act as a velocity controller for a quadcopter. The quadcopter’s objective is to quickly fly through a gate while avoiding crashing into the gate. We transfer our trained policy to the real world by deploying it on a quadcopter in a laboratory environment. Finally, we demonstrate that the trained policy is able to navigate the drone to the gate in the real world.

arxiv情報

著者 Patrick Thomas,Kevin Schroeder,Jonathan Black
発行日 2024-12-18 22:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク