Gaze-Based Intention Recognition for Human-Robot Collaboration

要約

この研究は、人間とロボットの共同組み立てシナリオにおける意図認識の問題に取り組むことを目的としています。
正確には、ロボットが正しい順序で部品を取り出し、人間が取扱説明書に従って部品を組み立てる木製スツールのインタラクティブな組み立てを考えます。
意図の認識はアイドル状態の推定に限定されており、2 つのエージェント間の同期を確実に高めるために必要です。
私たちは、階層型タスク ネットワークに基づく柔軟な計画アーキテクチャの認識パイプラインに統合されたウェアラブル センサーと視線追跡を含む 2 つの異なるソリューションの比較を実行しました。
実行時に、ウェアラブル センシング モジュールは、ユーザーの手首と手に配置された 4 つの 9 軸慣性測定ユニットからの生の測定値を長期短期記憶ネットワークへの入力として利用します。
一方、視線追跡はヘッドマウント ディスプレイとアンリアル エンジンに依存します。
私たちは 10 人の参加者を対象に 2 つのアプローチの有効性をテストしました。各参加者は両方のオプションを交互に検討しました。
ユーザー エクスペリエンス アンケートを通じて 2 つの手法の魅力と効率に関する明示的な指標と、分類時間と全体の組み立て時間に関する暗黙的な基準を収集しました。
私たちの研究結果は、2 つの方法が有効性とユーザーの好みの両方の点で同等のパフォーマンスに達できることを示しています。
将来の開発では、2 つのアプローチを結合して、より複雑なアクティビティを認識し、ユーザーのアクションを予測できるようにすることを目指す可能性があります。

要約(オリジナル)

This work aims to tackle the intent recognition problem in Human-Robot Collaborative assembly scenarios. Precisely, we consider an interactive assembly of a wooden stool where the robot fetches the pieces in the correct order and the human builds the parts following the instruction manual. The intent recognition is limited to the idle state estimation and it is needed to ensure a better synchronization between the two agents. We carried out a comparison between two distinct solutions involving wearable sensors and eye tracking integrated into the perception pipeline of a flexible planning architecture based on Hierarchical Task Networks. At runtime, the wearable sensing module exploits the raw measurements from four 9-axis Inertial Measurement Units positioned on the wrists and hands of the user as an input for a Long Short-Term Memory Network. On the other hand, the eye tracking relies on a Head Mounted Display and Unreal Engine. We tested the effectiveness of the two approaches with 10 participants, each of whom explored both options in alternate order. We collected explicit metrics about the attractiveness and efficiency of the two techniques through User Experience Questionnaires as well as implicit criteria regarding the classification time and the overall assembly time. The results of our work show that the two methods can reach comparable performances both in terms of effectiveness and user preference. Future development could aim at joining the two approaches two allow the recognition of more complex activities and to anticipate the user actions.

arxiv情報

著者 Valerio Belcamino,Miwa Takase,Mariya Kilina,Alessandro Carfì,Akira Shimada,Sota Shimizu,Fulvio Mastrogiovanni
発行日 2024-05-13 09:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク