要約
この論文では、自律ナビゲーション システムにおけるオブジェクト ナビゲーションの重要な課題に取り組み、特に深層強化学習 (DRL) ベースの手法における最適なエピソード長が長い環境におけるターゲット アプローチとエピソード終了の問題に焦点を当てます。
従来の DRL 手法は、環境探索や物体の位置特定には効果的ですが、深度情報が不足しているため、最適な経路計画や終端認識に苦労することがよくあります。
これらの制限を克服するために、我々は新しいアプローチ、つまり深度推論終了エージェント(DITA)を提案します。これは、オブジェクトごとの深さを暗黙的に推論し、強化学習と共同して終了を決定するためのジャッジモデルと呼ばれる教師ありモデルを組み込んでいます。
判定モデルを強化学習と並行してトレーニングし、報酬信号によって前者を効率的に監視します。
私たちの評価では、この方法が優れたパフォーマンスを示しており、すべての部屋タイプでベースライン方法よりも 9.3% の成功率の向上を達成し、長いエピソード環境では 51.2% の改善を達成しながら、パス長による加重成功 (SPL) をわずかに向上させていることがわかりました。
コードとリソース、視覚化は https://github.com/HuskyKingdom/DITA_acml2023 から入手できます。
要約(オリジナル)
This paper tackles the critical challenge of object navigation in autonomous navigation systems, particularly focusing on the problem of target approach and episode termination in environments with long optimal episode length in Deep Reinforcement Learning (DRL) based methods. While effective in environment exploration and object localization, conventional DRL methods often struggle with optimal path planning and termination recognition due to a lack of depth information. To overcome these limitations, we propose a novel approach, namely the Depth-Inference Termination Agent (DITA), which incorporates a supervised model called the Judge Model to implicitly infer object-wise depth and decide termination jointly with reinforcement learning. We train our judge model along with reinforcement learning in parallel and supervise the former efficiently by reward signal. Our evaluation shows the method is demonstrating superior performance, we achieve a 9.3% gain on success rate than our baseline method across all room types and gain 51.2% improvements on long episodes environment while maintaining slightly better Success Weighted by Path Length (SPL). Code and resources, visualization are available at: https://github.com/HuskyKingdom/DITA_acml2023
arxiv情報
| 著者 | Yuhang Song,Anh Nguyen,Chun-Yi Lee | 
| 発行日 | 2023-09-28 04:32:08+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
