要約
効果的な人間とロボットの相互作用(HRI)は、老化社会における将来のサービスロボットにとって非常に重要です。
既存のソリューションは、よく訓練されたオブジェクトのみに偏っており、新しいオブジェクトを扱うときにギャップを作成します。
現在、事前に定義されたジェスチャーまたは言語トークンを使用したHRIシステムは、すべての個人、特に高齢者に課題をもたらします。
これらの課題には、コマンドのリコール、手のジェスチャーの記憶、新しい名前の学習の困難が含まれます。
このホワイトペーパーでは、音声コマンドと敬意の姿勢を組み合わせた直感的なマルチモーダルHRIパラダイムであるNVP-HRIを紹介します。
NVP-HRIは、視覚的な手がかりと深さデータを分析するために、あらゆるモデル(SAM)を使用して、正確な構造オブジェクト表現を可能にします。
事前に訓練されたSAMネットワークを通じて、NVP-HRIは、事前の知識がなくても、ゼロショット予測を介して新しいオブジェクトとの相互作用を可能にします。
NVP-HRIは、マルチモーダルコマンド用の大規模な言語モデル(LLM)と統合され、衝突のない軌道ソリューションのためにオブジェクトの選択とシーン分布とリアルタイムで調整します。
また、LLMの幻覚リスクを減らすために、必須の制御構文を使用してアクションシーケンスを調節します。
ビデオhttps://youtu.be/ebc7al2wiacに示されているように、ユニバーサルロボットを使用した多様な現実世界のタスクの評価は、従来のジェスチャーコントロールよりも最大59.2 \%の効率改善を紹介しました。
コードとデザインは、https://github.com/laiyuzhi/nvp-hri.gitで公然と入手できます。
要約(オリジナル)
Effective Human-Robot Interaction (HRI) is crucial for future service robots in aging societies. Existing solutions are biased toward only well-trained objects, creating a gap when dealing with new objects. Currently, HRI systems using predefined gestures or language tokens for pretrained objects pose challenges for all individuals, especially elderly ones. These challenges include difficulties in recalling commands, memorizing hand gestures, and learning new names. This paper introduces NVP-HRI, an intuitive multi-modal HRI paradigm that combines voice commands and deictic posture. NVP-HRI utilizes the Segment Anything Model (SAM) to analyze visual cues and depth data, enabling precise structural object representation. Through a pre-trained SAM network, NVP-HRI allows interaction with new objects via zero-shot prediction, even without prior knowledge. NVP-HRI also integrates with a large language model (LLM) for multimodal commands, coordinating them with object selection and scene distribution in real time for collision-free trajectory solutions. We also regulate the action sequence with the essential control syntax to reduce LLM hallucination risks. The evaluation of diverse real-world tasks using a Universal Robot showcased up to 59.2\% efficiency improvement over traditional gesture control, as illustrated in the video https://youtu.be/EbC7al2wiAc. Our code and design will be openly available at https://github.com/laiyuzhi/NVP-HRI.git.
arxiv情報
著者 | Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Thomas Weber,Matthias Rätsch |
発行日 | 2025-03-12 12:30:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google