RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via Language-Based Feedback

要約

継続的な制御ロボット ナビゲーション タスクのための強化学習ベースのポリシーは、多くの場合、リアルタイム展開中に環境の変化に適応できず、壊滅的な障害につながる可能性があります。
この制限に対処するために、RE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) と呼ばれる新しいアプローチを提案します。これは、言語ベースのフィードバックを使用して、訓練されたポリシーを環境のリアルタイムの変化に合わせて調整します。
この作業では、訓練されたポリシーが \emph{いつフィードバックを求めるか} と \emph{フィードバックを訓練されたポリシーに組み込む方法} を決定できるようにします。
RE-MOVE は認識論的不確実性を組み込んで、人間からのフィードバックを要求する最適な時間を決定し、リアルタイムの適応のために言語ベースのフィードバックを使用します。
いくつかのテスト時の動的ナビゲーションシナリオで提案されたアプローチの利点を実証するために、広範な合成および現実世界の評価を実行します。
私たちのアプローチにより、ロボットは人間のフィードバックから学習し、これまでにない敵対的な状況に適応できるようになります。

要約(オリジナル)

Reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on), which uses language-based feedback to adjust trained policies to real-time changes in the environment. In this work, we enable the trained policy to decide \emph{when to ask for feedback} and \emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates epistemic uncertainty to determine the optimal time to request feedback from humans and uses language-based feedback for real-time adaptation. We perform extensive synthetic and real-world evaluations to demonstrate the benefits of our proposed approach in several test-time dynamic navigation scenarios. Our approach enable robots to learn from human feedback and adapt to previously unseen adversarial situations.

arxiv情報

著者 Souradip Chakraborty,Kasun Weerakoon,Prithvi Poddar,Pratap Tokekar,Amrit Singh Bedi,Dinesh Manocha
発行日 2023-03-14 04:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク