要約
荒野の捜索救助活動は、多くの場合、広大な風景を介して行われます。
ただし、犠牲者の生存の可能性を最大化するために、検索の努力は最小時間に行われなければなりません。
近年の安価なマルチコプターの出現により、検索操作の処理方法が変わりましたが、手元の大規模なエリアの課題は解決していません。
したがって、問題は完全なカバレッジの1つではなく、利用可能な期間に収集された情報を最大化するものの1つです。
この作業では、再発自動エンコーダーとディープ補強学習の組み合わせは、以前の純粋な深い強化学習または最適化アプローチよりも、検索問題に対するより効率的なソリューションであることを提案します。
自動エンコーダートレーニングパラダイムは、エンコーダーの情報スループットをその潜在的な空間表現に効率的に最大化し、深い補強学習が活用する準備ができています。
再発自動エンコーダーが設計されている問題を独立して解決するオーバーヘッドがなければ、制御タスクを学習する方が効率的です。
さらに、主な提案されたアーキテクチャを包括的に比較するために、3つの追加アーキテクチャを実装します。
同様に、ソフトな俳優と近位の政策最適化の両方を適用して、非常に非線形および複雑なアプリケーションの両方のパフォーマンスについての洞察を提供し、提案されたアーキテクチャがベンチマークよりも非常に優れており、ソフトアクター批評が最高のパフォーマンスを達成していることが示されています。
このモデルは、四分の一の学習可能なパラメーターとトレーニングの5分の1を下回る一方で、文献からの作業をさらに上回りました。
要約(オリジナル)
Wilderness search and rescue operations are often carried out over vast landscapes. The search efforts, however, must be undertaken in minimum time to maximize the chance of survival of the victim. Whilst the advent of cheap multicopters in recent years has changed the way search operations are handled, it has not solved the challenges of the massive areas at hand. The problem therefore is not one of complete coverage, but one of maximizing the information gathered in the limited time available. In this work we propose that a combination of a recurrent autoencoder and deep reinforcement learning is a more efficient solution to the search problem than previous pure deep reinforcement learning or optimisation approaches. The autoencoder training paradigm efficiently maximizes the information throughput of the encoder into its latent space representation which deep reinforcement learning is primed to leverage. Without the overhead of independently solving the problem that the recurrent autoencoder is designed for, it is more efficient in learning the control task. We further implement three additional architectures for a comprehensive comparison of the main proposed architecture. Similarly, we apply both soft actor-critic and proximal policy optimisation to provide an insight into the performance of both in a highly non-linear and complex application with a large observation Results show that the proposed architecture is vastly superior to the benchmarks, with soft actor-critic achieving the best performance. This model further outperformed work from the literature whilst having below a fifth of the total learnable parameters and training in a quarter of the time.
arxiv情報
著者 | Jan-Hendrik Ewers,David Anderson,Douglas Thomson |
発行日 | 2025-02-26 17:54:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google