Robots that Learn to Safely Influence via Prediction-Informed Reach-Avoid Dynamic Games

要約

ロボットは人々が自分のタスクをより効率的に達成できるように影響を与えることができます。自動運転車は交差点で少しずつ前進して通過でき、卓上のマニピュレーターは最初にテーブル上の物体を取りに行くことができます。
しかし、ロボットの影響力は、安易に実行されると近くの人々の安全を損なう可能性もあります。
この研究では、安全バックアップ制御が存在する場合に限り、ロボットが最大限の影響力を発揮できるようにする、斬新で堅牢なリーチ回避ダイナミック ゲームを提案し、解決します。
人間の側では、人間の行動を目標主導型と​​してモデル化しますが、ロボットの計画に条件付けされ、影響力を把握できるようになります。
ロボット側では、物理空間と信念空間の結合で動的ゲームを解決し、ロボットが人間の行動における不確実性が時間の経過とともにどのように変化するかを推論できるようにします。
私たちは、オフラインのゲーム理論による強化学習を介して解決される、高次元 (39-D) シミュレーションされた人間とロボットの協調操作タスクで、SLIDE (Safely Leveraging Influence in Dynamic Environments) と呼ばれるメソッドをインスタンス化します。
私たちのアプローチを、人間を最悪の敵対者として扱う堅牢なベースライン、影響について明示的に説明しない安全コントローラー、およびエネルギー関数ベースの安全シールドと比較します。
SLIDE を使用すると、安全な場合にロボットが人間に与える影響を利用できるようになり、最終的にはタスク実行中に高い安全率を確保しながら、ロボットの保守性が低下することがわかりました。

要約(オリジナル)

Robots can influence people to accomplish their tasks more efficiently: autonomous cars can inch forward at an intersection to pass through, and tabletop manipulators can go for an object on the table first. However, a robot’s ability to influence can also compromise the safety of nearby people if naively executed. In this work, we pose and solve a novel robust reach-avoid dynamic game which enables robots to be maximally influential, but only when a safety backup control exists. On the human side, we model the human’s behavior as goal-driven but conditioned on the robot’s plan, enabling us to capture influence. On the robot side, we solve the dynamic game in the joint physical and belief space, enabling the robot to reason about how its uncertainty in human behavior will evolve over time. We instantiate our method, called SLIDE (Safely Leveraging Influence in Dynamic Environments), in a high-dimensional (39-D) simulated human-robot collaborative manipulation task solved via offline game-theoretic reinforcement learning. We compare our approach to a robust baseline that treats the human as a worst-case adversary, a safety controller that does not explicitly reason about influence, and an energy-function-based safety shield. We find that SLIDE consistently enables the robot to leverage the influence it has on the human when it is safe to do so, ultimately allowing the robot to be less conservative while still ensuring a high safety rate during task execution.

arxiv情報

著者 Ravi Pandya,Changliu Liu,Andrea Bajcsy
発行日 2024-09-18 17:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク