NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction

要約

マルチモーダルヒューマンロボット相互作用(HRI)データセットの最近の進歩は、音声とジェスチャーの統合を強調し、ロボットが明示的な知識と暗黙の理解を吸収できるようにします。
ただし、既存のデータセットは、主にオブジェクトの指してプッシュするなどの基本タスクに焦点を当てており、複雑なドメインへの適用性を制限しています。
彼らはより単純な人間のコマンドデータに優先順位を付けますが、ロボットのトレーニングにあまり重点を置いて、タスクを正しく解釈し、適切に対応します。
これらのギャップに対処するために、NATSGLDデータセットを提示します。NATSGLDデータセットは、Wizard of OZ(WOZ)メソッドを使用して収集され、参加者は自律的であると考えられていたロボットと対話しました。
Natsgldは、それぞれが指揮されたタスクの根本的な解釈を提供するデモンストレーション軌跡と線形時間論的論理(LTL)式とペアになった人間のマルチモーダルコマンド(音声とジェスチャー)を記録します。
このデータセットは、HRIと機械学習の交差点での研究の基礎リソースとして機能します。
マルチモーダル入力と詳細な注釈を提供することにより、NATSGLDは、デモンストレーションからのマルチモーダル指導、計画認識、人間に恵まれた強化学習などの分野での探索を可能にします。
https://www.snehesh.com/natsgld/のMITライセンスの下でデータセットとコードをリリースして、将来のHRI研究をサポートします。

要約(オリジナル)

Recent advances in multimodal Human-Robot Interaction (HRI) datasets emphasize the integration of speech and gestures, allowing robots to absorb explicit knowledge and tacit understanding. However, existing datasets primarily focus on elementary tasks like object pointing and pushing, limiting their applicability to complex domains. They prioritize simpler human command data but place less emphasis on training robots to correctly interpret tasks and respond appropriately. To address these gaps, we present the NatSGLD dataset, which was collected using a Wizard of Oz (WoZ) method, where participants interacted with a robot they believed to be autonomous. NatSGLD records humans’ multimodal commands (speech and gestures), each paired with a demonstration trajectory and a Linear Temporal Logic (LTL) formula that provides a ground-truth interpretation of the commanded tasks. This dataset serves as a foundational resource for research at the intersection of HRI and machine learning. By providing multimodal inputs and detailed annotations, NatSGLD enables exploration in areas such as multimodal instruction following, plan recognition, and human-advisable reinforcement learning from demonstrations. We release the dataset and code under the MIT License at https://www.snehesh.com/natsgld/ to support future HRI research.

arxiv情報

著者 Snehesh Shrestha,Yantian Zha,Saketh Banagiri,Ge Gao,Yiannis Aloimonos,Cornelia Fermüller
発行日 2025-02-23 21:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク