Safe MPC Alignment with Human Directional Feedback

要約

安全性を重視するロボットの計画や制御において、安全制約を手動で指定したり、デモンストレーションから学習したりすることは困難である。本論文では、ロボットのモデル予測制御(MPC)方針における安全制約を、人間のオンライン方向フィードバックを用いて学習する、認証可能なアライメント手法を提案する。我々の知る限り、これは人間のフィードバックから安全制約を学習する最初の手法である。提案手法は経験的観察に基づいており、人間の方向フィードバックが利用可能な場合、ロボットをより安全な領域へ導く傾向がある。本手法は、学習仮説空間を更新するために、人間のフィードバックの方向のみを必要とする。安全制約の学習に成功した場合、あるいは、仮説空間の誤指定、すなわち、指定された仮説空間内に真の暗黙の安全制約が見つからない場合に、人間のフィードバックの総数に上限を与え、証明可能である。開発した2つのシミュレーションゲームにおいて、数値例とユーザスタディを用い、提案手法を評価した。さらに、ユーザースタディにおいて、移動注水作業を行う実世界のFrankaロボットアームに提案手法を実装し、テストした。シミュレーションと実験の結果から、提案手法の有効性と効率性が実証され、ほんの一握り(数十個)の人間の方向修正でロボットが安全制約をうまく学習できることが示された。

要約(オリジナル)

In safety-critical robot planning or control, manually specifying safety constraints or learning them from demonstrations can be challenging. In this paper, we propose a certifiable alignment method for a robot to learn a safety constraint in its model predictive control (MPC) policy with human online directional feedback. To our knowledge, it is the first method to learn safety constraints from human feedback. The proposed method is based on an empirical observation: human directional feedback, when available, tends to guide the robot toward safer regions. The method only requires the direction of human feedback to update the learning hypothesis space. It is certifiable, providing an upper bound on the total number of human feedback in the case of successful learning of safety constraints, or declaring the misspecification of the hypothesis space, i.e., the true implicit safety constraint cannot be found within the specified hypothesis space. We evaluated the proposed method using numerical examples and user studies in two developed simulation games. Additionally, we implemented and tested the proposed method on a real-world Franka robot arm performing mobile water-pouring tasks in a user study. The simulation and experimental results demonstrate the efficacy and efficiency of our method, showing that it enables a robot to successfully learn safety constraints with a small handful (tens) of human directional corrections.

arxiv情報

著者 Zhixian Xie,Wenlong Zhang,Yi Ren,Zhaoran Wang,George J. Pappas,Wanxin Jin
発行日 2024-07-05 02:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク