要約
ロボットをズームコールして家事をリモートで管理できる未来を想像してください。
この作業は、この方向に一歩を踏み出します。
ロビ・バトラーは、シームレスなマルチモーダルリモートインタラクションを可能にする新しい家庭用ロボットアシスタントです。
これにより、人間のユーザーは、一人称ビューから環境を監視し、音声またはテキストコマンドを発行し、手指のジェスチャーを介してターゲットオブジェクトを指定できます。
コアでは、大規模な言語モデル(LLMS)を搭載した高レベルの動作モジュールが、マルチモーダル命令を解釈してマルチステップアクションプランを生成します。
各プランは、ビジョン言語モデルによってサポートされているオープンボキャブラリープリミティブで構成されており、ロボットがテキスト入力とジェスチャー入力の両方を処理できるようにします。
Zoomは、人間とロボットの間にリモートの相互作用を実装するための便利なインターフェイスを提供します。
これらのコンポーネントを統合することで、Robi Butlerが現実世界のホーム環境でリモートマルチモーダル命令をゼロショットで接地できます。
さまざまな家庭用タスクでシステムを評価し、複雑なユーザーコマンドをマルチモーダル入力で実行する能力を実証しました。
また、マルチモーダルの相互作用がリモートの人間とロボットの相互作用におけるユーザーエクスペリエンスにどのように影響するかを調べるために、ユーザー調査を実施しました。
これらの結果は、Robot Foundationモデルの進歩により、遠隔地の家庭用ロボットアシスタントの現実に近づいていることを示唆しています。
要約(オリジナル)
Imagine a future when we can Zoom-call a robot to manage household chores remotely. This work takes one step in this direction. Robi Butler is a new household robot assistant that enables seamless multimodal remote interaction. It allows the human user to monitor its environment from a first-person view, issue voice or text commands, and specify target objects through hand-pointing gestures. At its core, a high-level behavior module, powered by Large Language Models (LLMs), interprets multimodal instructions to generate multistep action plans. Each plan consists of open-vocabulary primitives supported by vision-language models, enabling the robot to process both textual and gestural inputs. Zoom provides a convenient interface to implement remote interactions between the human and the robot. The integration of these components allows Robi Butler to ground remote multimodal instructions in real-world home environments in a zero-shot manner. We evaluated the system on various household tasks, demonstrating its ability to execute complex user commands with multimodal inputs. We also conducted a user study to examine how multimodal interaction influences user experiences in remote human-robot interaction. These results suggest that with the advances in robot foundation models, we are moving closer to the reality of remote household robot assistants.
arxiv情報
著者 | Anxing Xiao,Nuwan Janaka,Tianrun Hu,Anshul Gupta,Kaixin Li,Cunjun Yu,David Hsu |
発行日 | 2025-03-10 06:00:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google