要約
発電所を検査する目的で、強化学習技術を使用して自律型ロボットを構築できます。
この方法は環境を複製し、単純な強化学習 (RL) アルゴリズムを採用しています。
この戦略は、発電セクターを含むいくつかのセクターに適用される可能性があります。
この研究では、知覚、計画、および行動を備えた事前トレーニング済みのモデルが提案されています。
無人航空機 (UAV) のナビゲーション問題などの最適化問題に対処するために、ディープマインドが 2015 年に立ち上げた強化学習ベースのフレームワークであるディープ Q ネットワーク (DQN) には、ディープ ラーニングと Q ラーニングの両方が組み込まれています。
現在の手順の問題を克服するために、研究では、UAV 自律航法と DQN 強化学習を組み込んだ発電所検査システムを提案しています。
これらのトレーニング プロセスは、状態を参照して報酬関数を設定し、現在使用されている他の強化学習トレーニング手法と区別される内部および外部の両方の効果要因を考慮します。
この手法の強化学習セグメントの重要なコンポーネントは、たとえば、風域のシミュレーション、無人航空機のバッテリー充電レベル、UAV が到達した高さなどの状態を導入します。トレーニングされたモデルにより、さらに
UAVが困難な環境で自力で動き回れるようにすることで、検査戦略が実際に適用される可能性があります。
モデルの平均スコアは 9,000 に収束します。
トレーニング済みのモデルにより、UAV はターゲット ポイントに到達するために必要な回転数を最小限に抑えることができました。
要約(オリジナル)
For the purpose of inspecting power plants, autonomous robots can be built using reinforcement learning techniques. The method replicates the environment and employs a simple reinforcement learning (RL) algorithm. This strategy might be applied in several sectors, including the electricity generation sector. A pre-trained model with perception, planning, and action is suggested by the research. To address optimization problems, such as the Unmanned Aerial Vehicle (UAV) navigation problem, Deep Q-network (DQN), a reinforcement learning-based framework that Deepmind launched in 2015, incorporates both deep learning and Q-learning. To overcome problems with current procedures, the research proposes a power plant inspection system incorporating UAV autonomous navigation and DQN reinforcement learning. These training processes set reward functions with reference to states and consider both internal and external effect factors, which distinguishes them from other reinforcement learning training techniques now in use. The key components of the reinforcement learning segment of the technique, for instance, introduce states such as the simulation of a wind field, the battery charge level of an unmanned aerial vehicle, the height the UAV reached, etc. The trained model makes it more likely that the inspection strategy will be applied in practice by enabling the UAV to move around on its own in difficult environments. The average score of the model converges to 9,000. The trained model allowed the UAV to make the fewest number of rotations necessary to go to the target point.
arxiv情報
著者 | Haoran Guan |
発行日 | 2023-03-16 00:58:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google