Risk-Calibrated Human-Robot Interaction via Set-Valued Intent Prediction

要約

散らかった家の中を歩き回ったり、日用品を仕分けたりするなど、ロボットが人間の意図を予測する必要があるタスクは、ロボットが同様の結果につながる有効なアクションを幅広く示すため、困難です。
さらに、人間とロボットのパートナー間のゼロショット協力は、人間によって大きく異なる可能性がある潜在的な人間の意図をロボットが推測してその場で適応する必要があるため、特に困難な問題です。
最近、深層学習された動き予測モデルは、人間の意図を予測する上で有望な結果を示していますが、確実に不正確になる傾向があります。
この研究では、人間とロボットの協力における不確実な行動選択に関連するリスクを測定および調整するためのフレームワークである、リスク調整型インタラクティブプランニング (RCIP) を紹介します。その基本的な考え方は、リスクが生じた場合、ロボットは人間の説明を求める必要があるということです。
人間の意図の不確実性に関連するものは制御できません。
RCIP は、設定値リスクキャリブレーションの理論に基づいて構築されており、複雑な複数ステップ設定における人間による説明のコストを最小限に抑えながら、ロボットが被る累積損失について有限サンプルの統計的保証を提供します。
私たちの主な洞察は、リスク制御問題をシーケンスレベルの複数仮説検定問題として組み立てることで、事前トレーニングされたリスク認識ポリシーを制御する低次元パラメーターを使用して効率的なキャリブレーションを可能にすることです。
さまざまなシミュレーション環境と現実世界の環境にわたる実験により、人間の多様な動的な意図を予測し、それに適応する RCIP の能力が実証されています。

要約(オリジナル)

Tasks where robots must anticipate human intent, such as navigating around a cluttered home or sorting everyday items, are challenging because they exhibit a wide range of valid actions that lead to similar outcomes. Moreover, zero-shot cooperation between human-robot partners is an especially challenging problem because it requires the robot to infer and adapt on the fly to a latent human intent, which could vary significantly from human to human. Recently, deep learned motion prediction models have shown promising results in predicting human intent but are prone to being confidently incorrect. In this work, we present Risk-Calibrated Interactive Planning (RCIP), which is a framework for measuring and calibrating risk associated with uncertain action selection in human-robot cooperation, with the fundamental idea that the robot should ask for human clarification when the risk associated with the uncertainty in the human’s intent cannot be controlled. RCIP builds on the theory of set-valued risk calibration to provide a finite-sample statistical guarantee on the cumulative loss incurred by the robot while minimizing the cost of human clarification in complex multi-step settings. Our main insight is to frame the risk control problem as a sequence-level multi-hypothesis testing problem, allowing efficient calibration using a low-dimensional parameter that controls a pre-trained risk-aware policy. Experiments across a variety of simulated and real-world environments demonstrate RCIP’s ability to predict and adapt to a diverse set of dynamic human intents.

arxiv情報

著者 Justin Lidard,Hang Pham,Ariel Bachman,Bryan Boateng,Anirudha Majumdar
発行日 2024-04-23 21:20:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC パーマリンク