Learning Vision-based Pursuit-Evasion Robot Policies

要約

現実世界の制約の下で、追跡と回避の相互作用で必要とされる戦略的なロボットの行動を学習することは、非常に困難です。
それには、相互作用のダイナミクスを活用し、物理的状態と潜在的な意図の不確実性の両方を通じて計画を立てる必要があります。
この論文では、この難解な問題を教師あり学習問題に変換します。この問題では、完全に観察可能なロボット ポリシーが部分的に観察可能なロボット ポリシーの監視を生成します。
部分的に観察可能な追跡者ポリシーの監視信号の品質は、回避者の行動の多様性と最適性のバランスと、完全に観察可能なポリシーのモデル化仮定の強度という 2 つの重要な要素に依存することがわかりました。
私たちは、RGB-D カメラを備えた物理的な四足歩行ロボットに、野生での追跡回避インタラクションに関するポリシーを展開します。
あらゆる課題にもかかわらず、センシングの制約は創造性をもたらします。ロボットは、不確実な場合は情報を収集し、ノイズの多い測定値から意図を予測し、傍受するために予測する必要に迫られます。
プロジェクトのウェブページ: https://abajcsy.github.io/vision-based-pursuit/

要約(オリジナル)

Learning strategic robot behavior — like that required in pursuit-evasion interactions — under real-world constraints is extremely challenging. It requires exploiting the dynamics of the interaction, and planning through both physical state and latent intent uncertainty. In this paper, we transform this intractable problem into a supervised learning problem, where a fully-observable robot policy generates supervision for a partially-observable one. We find that the quality of the supervision signal for the partially-observable pursuer policy depends on two key factors: the balance of diversity and optimality of the evader’s behavior and the strength of the modeling assumptions in the fully-observable policy. We deploy our policy on a physical quadruped robot with an RGB-D camera on pursuit-evasion interactions in the wild. Despite all the challenges, the sensing constraints bring about creativity: the robot is pushed to gather information when uncertain, predict intent from noisy measurements, and anticipate in order to intercept. Project webpage: https://abajcsy.github.io/vision-based-pursuit/

arxiv情報

著者 Andrea Bajcsy,Antonio Loquercio,Ashish Kumar,Jitendra Malik
発行日 2023-08-30 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク