RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in Dynamic Environments via Language-Based Feedback

要約

継続制御ロボット ナビゲーション タスク用の強化学習ベースのポリシーは、リアルタイム展開中の環境の変化に適応できないことが多く、致命的な障害が発生する可能性があります。
この制限に対処するために、言語ベースのフィードバックを利用して、再トレーニングせずに、すでにトレーニングされたポリシーを環境のリアルタイムの変化に適応させる、RE-MOVE (ヘルプを要求して移動) と呼ばれる新しいアプローチを提案します。
提案されたアプローチは本質的に、(1) いつフィードバックを求めるか、(2) フィードバックを訓練されたポリシーにどのように組み込むか、という 2 つの主要な課題に対処することに要約されます。
RE-MOVE には、認識上の不確実性ベースのフレームワークが組み込まれており、指示ベースのフィードバックを要求する最適な時間を決定します。
2 番目の課題では、効率的で迅速な設計を備えたゼロショット学習自然言語処理 (NLP) パラダイムを採用し、最先端の GPT-3.5、Llama-2 言語モデルを活用します。
提案されたアプローチの有効性を示すために、いくつかのテスト時の動的ナビゲーション シナリオで広範な合成評価と現実世界の評価を実行しました。
RE-MOVE を利用すると、特に知覚的な課題を伴う要求の厳しい現実世界の環境において、他のアプローチと比較して、正規化された軌道の長さが 13.50% 削減されるとともに、成功した目標の達成が最大 80% 向上します。

要約(オリジナル)

Reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (REquest help and MOVE on) to adapt already trained policy to real-time changes in the environment without re-training via utilizing a language-based feedback. The proposed approach essentially boils down to addressing two main challenges of (1) when to ask for feedback and, if received, (2) how to incorporate feedback into trained policies. RE-MOVE incorporates an epistemic uncertainty-based framework to determine the optimal time to request instructions-based feedback. For the second challenge, we employ a zero-shot learning natural language processing (NLP) paradigm with efficient, prompt design and leverage state-of-the-art GPT-3.5, Llama-2 language models. To show the efficacy of the proposed approach, we performed extensive synthetic and real-world evaluations in several test-time dynamic navigation scenarios. Utilizing RE-MOVE result in up to 80% enhancement in the attainment of successful goals, coupled with a reduction of 13.50% in the normalized trajectory length, as compared to alternative approaches, particularly in demanding real-world environments with perceptual challenges.

arxiv情報

著者 Souradip Chakraborty,Kasun Weerakoon,Prithvi Poddar,Mohamed Elnoor,Priya Narayanan,Carl Busart,Pratap Tokekar,Amrit Singh Bedi,Dinesh Manocha
発行日 2023-09-18 02:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク