要約
位置環境で人間とロボットのシームレスなコラボレーションを可能にするフレームワークである Vocal Sandbox を紹介します。
私たちのフレームワークのシステムは、音声対話、オブジェクトのキーポイント、運動感覚のデモンストレーションなど、さまざまな教育方法から複数の抽象レベルで適応し、継続的に学習する能力を特徴としています。
このような適応を可能にするために、ユーザーが新しい動作を教えながらロボットの能力をリアルタイムで理解し、同時に適応できるようにする、軽量で解釈可能な学習アルゴリズムを設計します。
たとえば、オブジェクトの「周囲を追跡する」ための新しい低レベルのスキルをデモンストレーションした後、ユーザーは、新しいオブジェクトを追跡するように求められたときに、ロボットの意図した動きの軌跡を視覚化して提供されます。
同様に、ユーザーは音声対話を通じて高レベルの計画行動を教え、事前にトレーニングされた言語モデルを使用して、再利用および構築できる低レベルのスキル $-$ 概念の構成として「物体を片付ける」などの行動を合成します。
Vocal Sandbox を 2 つの設定 (共同ギフトバッグの組み立てと LEGO ストップモーション アニメーション) で評価します。
最初の設定では、専門家以外の参加者 8 名を対象に体系的なアブレーションとユーザー調査を実施し、マルチレベル指導の影響を強調します。
ロボットとの合計対話時間 23 時間で、ユーザーは平均 16 の新しい低レベルのスキルを使用して 17 の新しい高レベルの動作を教え、ベースラインと比較して必要なアクティブな監視が 22.1% 減少し、少ない時間でより複雑な自律パフォーマンス (+19.7%) を実現します。
失敗 (-67.1%)。
定性的には、ユーザーは使いやすさ (+20.6%) と全体的なパフォーマンス (+13.9%) により、ボーカル サンドボックス システムを強く好みます。
最後に、経験豊富なシステム ユーザーとロボットを組み合わせてストップモーション アニメーションを撮影します。
2 時間の継続的なコラボレーションを通じて、ユーザーは 52 秒 (232 フレーム) のムービーを撮影するためのより複雑なモーション スキルを徐々に習得します。
要約(オリジナル)
We introduce Vocal Sandbox, a framework for enabling seamless human-robot collaboration in situated environments. Systems in our framework are characterized by their ability to adapt and continually learn at multiple levels of abstraction from diverse teaching modalities such as spoken dialogue, object keypoints, and kinesthetic demonstrations. To enable such adaptation, we design lightweight and interpretable learning algorithms that allow users to build an understanding and co-adapt to a robot’s capabilities in real-time, as they teach new behaviors. For example, after demonstrating a new low-level skill for ‘tracking around’ an object, users are provided with trajectory visualizations of the robot’s intended motion when asked to track a new object. Similarly, users teach high-level planning behaviors through spoken dialogue, using pretrained language models to synthesize behaviors such as ‘packing an object away’ as compositions of low-level skills $-$ concepts that can be reused and built upon. We evaluate Vocal Sandbox in two settings: collaborative gift bag assembly and LEGO stop-motion animation. In the first setting, we run systematic ablations and user studies with 8 non-expert participants, highlighting the impact of multi-level teaching. Across 23 hours of total robot interaction time, users teach 17 new high-level behaviors with an average of 16 novel low-level skills, requiring 22.1% less active supervision compared to baselines and yielding more complex autonomous performance (+19.7%) with fewer failures (-67.1%). Qualitatively, users strongly prefer Vocal Sandbox systems due to their ease of use (+20.6%) and overall performance (+13.9%). Finally, we pair an experienced system-user with a robot to film a stop-motion animation; over two hours of continuous collaboration, the user teaches progressively more complex motion skills to shoot a 52 second (232 frame) movie.
arxiv情報
著者 | Jennifer Grannen,Siddharth Karamcheti,Suvir Mirchandani,Percy Liang,Dorsa Sadigh |
発行日 | 2024-11-04 20:44:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google