要約
安全性は、人間とロボットの相互作用中に重要です。
しかし、人々は本質的に予測不可能であるため、ロボットが安全な行動を計画することはしばしば困難です。
ここでは、人間を予測する能力に頼る代わりに、予期しない人間の決定に堅牢なロボットポリシーを特定します。
これを達成し、人間とロボットの相互作用をゼロサムゲームとして策定します。ここでは、(最悪の場合)人間の行動はロボットの目標と直接対立します。
このゲームのナッシュ均衡を解決することは、幅広い人間の行動にわたって安全性とパフォーマンスを最大化するロボットポリシーを提供します。
既存のアプローチは、ハミルトン・ジャコビ分析(扱いにくい)または線形二次近似(不正確)を活用することにより、これらの最適なポリシーを見つけようとします。
対照的に、この作業では、ナッシュの平衡ポリシーに収束する計算効率的で理論的に正当化された方法を提案します。
私たちのアプローチ(MCLQと呼ばれる)は、線形四次ゲームを活用して、安全なロボットの動作の最初の推測を取得し、モンテカルロ検索で推測を繰り返し改良します。
MCLQはリアルタイムの安全調整を提供するだけでなく、設計者がロボットがどれほど保守的であるかを調整することもできます。
私たちのシミュレーションとユーザー調査は、このアプローチが計算時間と予想されるパフォーマンスの両方の観点から安全性を向上させることを示唆しています。
https://youtu.be/kjuheiwvuwyの実験のビデオを参照してください。
要約(オリジナル)
Safety is critical during human-robot interaction. But — because people are inherently unpredictable — it is often difficult for robots to plan safe behaviors. Instead of relying on our ability to anticipate humans, here we identify robot policies that are robust to unexpected human decisions. We achieve this by formulating human-robot interaction as a zero-sum game, where (in the worst case) the human’s actions directly conflict with the robot’s objective. Solving for the Nash Equilibrium of this game provides robot policies that maximize safety and performance across a wide range of human actions. Existing approaches attempt to find these optimal policies by leveraging Hamilton-Jacobi analysis (which is intractable) or linear-quadratic approximations (which are inexact). By contrast, in this work we propose a computationally efficient and theoretically justified method that converges towards the Nash Equilibrium policy. Our approach (which we call MCLQ) leverages linear-quadratic games to obtain an initial guess at safe robot behavior, and then iteratively refines that guess with a Monte Carlo search. Not only does MCLQ provide real-time safety adjustments, but it also enables the designer to tune how conservative the robot is — preventing the system from focusing on unrealistic human behaviors. Our simulations and user study suggest that this approach advances safety in terms of both computation time and expected performance. See videos of our experiments here: https://youtu.be/KJuHeiWVuWY.
arxiv情報
著者 | Benjamin A. Christie,Dylan P. Losey |
発行日 | 2025-04-08 15:18:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google