要約
コミュニケーションは私たちの社会的な言葉を形作ります。
ロボットが社会的であると考えられ、その結果として社会環境に統合されるためには、人間と人間のコミュニケーションを支配する力学の一部を理解することが不可欠です。
この研究では、話者からの非言語的身体的手がかりを解釈して利用することによって、発話の宛先を理解する能力である宛先推定の問題に取り組みます。
これを行うには、畳み込み層と、話者の顔と話者の身体姿勢の 2D ベクトルを表す入力画像を受け取る LSTM セルで構成されるハイブリッド深層学習モデルを実装します。
私たちの実装の選択は、ソーシャル ロボットに展開でき、生態学的シナリオで効率的なモデルを開発するという目的に基づいて行われました。
私たちのモデルが、ロボットの自己中心的な観点から、空間内での宛先の位置特定の観点から宛先推定問題を解決できることを示します。
要約(オリジナル)
Communicating shapes our social word. For a robot to be considered social and being consequently integrated in our social environment it is fundamental to understand some of the dynamics that rule human-human communication. In this work, we tackle the problem of Addressee Estimation, the ability to understand an utterance’s addressee, by interpreting and exploiting non-verbal bodily cues from the speaker. We do so by implementing an hybrid deep learning model composed of convolutional layers and LSTM cells taking as input images portraying the face of the speaker and 2D vectors of the speaker’s body posture. Our implementation choices were guided by the aim to develop a model that could be deployed on social robots and be efficient in ecological scenarios. We demonstrate that our model is able to solve the Addressee Estimation problem in terms of addressee localisation in space, from a robot ego-centric point of view.
arxiv情報
著者 | Carlo Mazzola,Marta Romeo,Francesco Rea,Alessandra Sciutti,Angelo Cangelosi |
発行日 | 2024-03-28 08:26:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google