Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot

要約

宛先推定は、人が誰に向かって話しているのかを理解する能力であり、ソーシャルロボットが人間とスムーズに対話するために不可欠なスキルです。
この意味で、これは、マルチパーティの非構造化シナリオで効果的な会話エージェントを開発するために取り組まなければならない問題の 1 つです。
人間として、私たちをそのような推定に導く主なチャネルの 1 つは、話者の非言語的行動、つまり、まず第一に、視線と体の姿勢です。
今回の研究では、人間の知覚スキルにインスピレーションを得て、これら 2 つの非言語機能に依存する宛先推定の深層学習モデルが設計され、トレーニングされ、iCub ロボットに展開されます。
この研究では、そのような実装の手順と、リアルタイムの人間とロボットのインタラクションに展開されたモデルのパフォーマンスを、トレーニングに使用されたデータセットに対する以前のテストと比較して示しています。

要約(オリジナル)

Addressee Estimation is the ability to understand to whom a person is talking, a skill essential for social robots to interact smoothly with humans. In this sense, it is one of the problems that must be tackled to develop effective conversational agents in multi-party and unstructured scenarios. As humans, one of the channels that mainly lead us to such estimation is the non-verbal behavior of speakers: first of all, their gaze and body pose. Inspired by human perceptual skills, in the present work, a deep-learning model for Addressee Estimation relying on these two non-verbal features is designed, trained, and deployed on an iCub robot. The study presents the procedure of such implementation and the performance of the model deployed in real-time human-robot interaction compared to previous tests on the dataset used for the training.

arxiv情報

著者 Carlo Mazzola,Francesco Rea,Alessandra Sciutti
発行日 2023-11-09 13:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, I.2.10 パーマリンク