Toward Zero-Shot User Intent Recognition in Shared Autonomy

要約

共有自律性の基本的な課題は、高自由度ロボットを使用して、最初にユーザーの意図を推測し、次にユーザーがその意図を達成できるようにすることで、人間を妨げるのではなく支援することです。
成功しているとはいえ、従来の方法は、考えられるすべての人間の意図に関する先験的な知識に大きく依存しているか、ユーザーを支援する前にこれらの意図を学習するために多くのデモンストレーションと人間との対話を必要とします。
私たちは、ロボットがエンドエフェクタービジョンを使用してゼロショットの人間の意図を推定し、ブレンド制御と組み合わせて人間が未知の動的に操作タスクを達成できるようにすることを可能にするように設計されたゼロショット、ビジョンのみの共有自律性(VOSA)フレームワークを提案および研究します。
オブジェクトの位置を変更します。
VOSA フレームワークの有効性を実証するために、Kinova Gen3 マニピュレータ上で VOSA の単純バージョンをインスタンス化し、3 つの卓上操作タスクに関するユーザー調査を実施してシステムを評価します。
VOSA のパフォーマンスは、人間の意図の可能性に関する特権的な知識を受け取るオラクルのベースライン モデルのパフォーマンスに匹敵すると同時に、支援なしの遠隔操作よりも大幅に少ない労力で済みます。
考えられる人間の意図のセットが完全または部分的に不明である、より現実的な設定では、VOSA はベースラインのアプローチよりも人的労力と時間が少なくて済む一方で、大多数の参加者に好まれていることが実証されています。
私たちの結果は、ロボットマニピュレーターの柔軟で有益な共有制御を可能にする既製のビジョンアルゴリズムの使用の有効性と効率性を実証しています。
コードとビデオは、https://sites.google.com/view/zeroshot-sharedautonomy/home から入手できます。

要約(オリジナル)

A fundamental challenge of shared autonomy is to use high-DoF robots to assist, rather than hinder, humans by first inferring user intent and then empowering the user to achieve their intent. Although successful, prior methods either rely heavily on a priori knowledge of all possible human intents or require many demonstrations and interactions with the human to learn these intents before being able to assist the user. We propose and study a zero-shot, vision-only shared autonomy (VOSA) framework designed to allow robots to use end-effector vision to estimate zero-shot human intents in conjunction with blended control to help humans accomplish manipulation tasks with unknown and dynamically changing object locations. To demonstrate the effectiveness of our VOSA framework, we instantiate a simple version of VOSA on a Kinova Gen3 manipulator and evaluate our system by conducting a user study on three tabletop manipulation tasks. The performance of VOSA matches that of an oracle baseline model that receives privileged knowledge of possible human intents while also requiring significantly less effort than unassisted teleoperation. In more realistic settings, where the set of possible human intents is fully or partially unknown, we demonstrate that VOSA requires less human effort and time than baseline approaches while being preferred by a majority of the participants. Our results demonstrate the efficacy and efficiency of using off-the-shelf vision algorithms to enable flexible and beneficial shared control of a robot manipulator. Code and videos available here: https://sites.google.com/view/zeroshot-sharedautonomy/home.

arxiv情報

著者 Atharv Belsare,Zohre Karimi,Connor Mattson,Daniel S. Brown
発行日 2025-01-14 19:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク