A General Calibrated Regret Metric for Detecting and Mitigating Human-Robot Interaction Failures

要約

ロボットの意思決定は、人間の周りで動作する場合、表現力豊かなデータ駆動型の人間予測モデルにますます依存します。
これらのモデルは分布外のインタラクションで予測誤差が生じることが知られていますが、すべての予測誤差が下流のロボットのパフォーマンスに等しく影響を与えるわけではありません。
私たちは、後悔の数学的概念が、将来のインタラクション結果の誤った予測が閉ループロボットのパフォーマンスを低下させる程度を正確に特徴づけていることを確認しました。
ただし、正規のリグレス測定は、さまざまな展開の相互作用にわたって十分に調整されていません。
絶対報酬空間から確率空間まで一般化する、校正された後悔メトリクスを導出することで、標準的な後悔の概念を拡張します。
この変換により、私たちのメトリクスは、ロボットの後悔を計算するための明示的な報酬関数の必要性を取り除き、異なる展開コンテキスト間でインタラクションの異常をより公平に比較​​できるようになり、「システムレベル」の予測失敗の対象を絞ったデータセットの構築を容易にします。
私たちは、ロボットの下流の意思決定を改善するために役立つ、この後悔の多いインタラクション データの価値を実験的に定量化します。
一連の閉ループ自動運転シミュレーションでは、後悔の多い人間とロボットの相互作用データのみに基づいて自我条件付き行動予測器を微調整することで、大幅に (77%) 少ないデータでロボットの全体的な再展開パフォーマンスを向上できることがわかりました。

要約(オリジナル)

Robot decision-making increasingly relies on expressive data-driven human prediction models when operating around people. While these models are known to suffer from prediction errors in out-of-distribution interactions, not all prediction errors equally impact downstream robot performance. We identify that the mathematical notion of regret precisely characterizes the degree to which incorrect predictions of future interaction outcomes degraded closed-loop robot performance. However, canonical regret measures are poorly calibrated across diverse deployment interactions. We extend the canonical notion of regret by deriving a calibrated regret metric that generalizes from absolute reward space to probability space. With this transformation, our metric removes the need for explicit reward functions to calculate the robot’s regret, enables fairer comparison of interaction anomalies across disparate deployment contexts, and facilitates targetted dataset construction of ‘system- level’ prediction failures. We experimentally quantify the value of this high-regret interaction data for aiding the robot in improving its downstream decision-making. In a suite of closed- loop autonomous driving simulations, we find that fine-tuning ego-conditioned behavior predictors exclusively on high-regret human-robot interaction data can improve the robot’s overall re-deployment performance with significantly (77%) less data.

arxiv情報

著者 Kensuke Nakamura,Ran Tian,Andrea Bajcsy
発行日 2024-03-07 18:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク