要約
強化学習は、動的な環境における意思決定プロセスに革命をもたらしましたが、明確なフィードバック信号がなければ、自律的に目標を検出して達成するのに苦労することがよくあります。
たとえば、ソースターム推定問題では、正確な環境情報が欠如しているため、明確なフィードバック信号を提供し、ソースの位置がどのように決定されるかを定義および評価することが困難になります。
この課題に対処するために、自律目標検出および停止 (AGDC) モジュールが開発され、自律目標検出およびタスク完了時の停止のための自己フィードバック メカニズムを組み込むことで、さまざまな RL アルゴリズムを強化しました。
私たちの方法は、エージェントの信念を近似することによって未定義の目標を効果的に特定して停止し、フィードバックが限られた環境での RL アルゴリズムの機能を大幅に強化します。
私たちのアプローチの有効性を検証するために、AGDC をディープ Q ネットワーク、近接ポリシー最適化、およびディープ決定論的ポリシー勾配アルゴリズムと統合し、ソースターム推定問題でのパフォーマンスを評価しました。
実験結果は、AGDC で強化された RL アルゴリズムが、インフォタキシス、エントロタキシス、活用と探索のための二重制御、および非統計的なランダム アクション選択法などの従来の統計的手法を大幅に上回るパフォーマンスを示した。
これらの改善は、成功率、平均移動距離、検索時間の点で明らかであり、複雑な現実世界のシナリオにおける AGDC の有効性と効率性が強調されています。
要約(オリジナル)
Reinforcement Learning has revolutionized decision-making processes in dynamic environments, yet it often struggles with autonomously detecting and achieving goals without clear feedback signals. For example, in a Source Term Estimation problem, the lack of precise environmental information makes it challenging to provide clear feedback signals and to define and evaluate how the source’s location is determined. To address this challenge, the Autonomous Goal Detection and Cessation (AGDC) module was developed, enhancing various RL algorithms by incorporating a self-feedback mechanism for autonomous goal detection and cessation upon task completion. Our method effectively identifies and ceases undefined goals by approximating the agent’s belief, significantly enhancing the capabilities of RL algorithms in environments with limited feedback. To validate effectiveness of our approach, we integrated AGDC with deep Q-Network, proximal policy optimization, and deep deterministic policy gradient algorithms, and evaluated its performance on the Source Term Estimation problem. The experimental results showed that AGDC-enhanced RL algorithms significantly outperformed traditional statistical methods such as infotaxis, entrotaxis, and dual control for exploitation and exploration, as well as a non-statistical random action selection method. These improvements were evident in terms of success rate, mean traveled distance, and search time, highlighting AGDC’s effectiveness and efficiency in complex, real-world scenarios.
arxiv情報
著者 | Yiwei Shi,Muning Wen,Qi Zhang,Weinan Zhang,Cunjia Liu,Weiru Liu |
発行日 | 2024-12-12 17:12:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google