要約
継続的な制御ロボット ナビゲーション タスクのための強化学習ベースのポリシーは、多くの場合、リアルタイム展開中に環境の変化に適応できず、壊滅的な障害につながる可能性があります。
この制限に対処するために、RE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) と呼ばれる新しいアプローチを提案します。これは、言語ベースのフィードバックを使用して、訓練されたポリシーを環境のリアルタイムの変化に合わせて調整します。
この作業では、訓練されたポリシーが \emph{いつフィードバックを求めるか} と \emph{フィードバックを訓練されたポリシーに組み込む方法} を決定できるようにします。
RE-MOVE は認識論的不確実性を組み込んで、人間からのフィードバックを要求する最適な時間を決定し、リアルタイムの適応のために言語ベースのフィードバックを使用します。
いくつかのテスト時の動的ナビゲーションシナリオで提案されたアプローチの利点を実証するために、広範な合成および現実世界の評価を実行します。
私たちのアプローチにより、ロボットは人間のフィードバックから学習し、これまでにない敵対的な状況に適応できるようになります。
要約(オリジナル)
Reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on), which uses language-based feedback to adjust trained policies to real-time changes in the environment. In this work, we enable the trained policy to decide \emph{when to ask for feedback} and \emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates epistemic uncertainty to determine the optimal time to request feedback from humans and uses language-based feedback for real-time adaptation. We perform extensive synthetic and real-world evaluations to demonstrate the benefits of our proposed approach in several test-time dynamic navigation scenarios. Our approach enable robots to learn from human feedback and adapt to previously unseen adversarial situations.
arxiv情報
著者 | Souradip Chakraborty,Kasun Weerakoon,Prithvi Poddar,Pratap Tokekar,Amrit Singh Bedi,Dinesh Manocha |
発行日 | 2023-03-14 04:20:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google