要約
ヒューマノイドロボットに、人間の相互作用者の感情状態を理解し、感情を適切に表現する能力を装備し、状況に応じて適切に表現することは、感情的な人間とロボットの相互作用に不可欠です。
ただし、現実世界での感情的な人間とロボットの相互作用の現在の視覚認識マルチモーダル感情認識モデルを可能にすることは、環境ノイズの問題に対処し、リアルタイムの要件を満たすことを具体化する課題を引き起こします。
第一に、マルチパーティの会話シナリオでは、ロボットの視覚的観察に継承されたノイズは、1)シーンの気を散らすオブジェクトまたは2)ロボットの視野に現れる非アクティブなスピーカーから生じる可能性があり、モデルが視覚入力から感情的なキューを抽出するのを妨げます。
第二に、インタラクティブシステムの望ましい機能であるリアルタイムの応答も、達成するのが難しいです。
両方の課題に取り組むために、マルチパーティの会話のために特別に設計されたUGOTMEと呼ばれる感情的なヒトロボット相互作用システムを導入します。
2つの除去戦略が提案され、最初の問題を解決するためにシステムに組み込まれます。
具体的には、シーン内の気を散らすオブジェクトを除外するために、生の画像からスピーカーの顔の画像を抽出することを提案し、非アクティブなスピーカーを除外するためのカスタマイズされたアクティブなフェイス抽出戦略を導入します。
2番目の問題に関しては、ロボットからローカルサーバーへの効率的なデータ送信を使用して、リアルタイムの応答機能を改善します。
AMECAという名前の人間のロボットにUGOTMEを展開して、実際のシナリオでリアルタイムの推論機能を検証します。
現実世界の展開を示すビデオは、https://pi3-141592653.github.io/ugotme/で入手できます。
要約(オリジナル)
Equipping humanoid robots with the capability to understand emotional states of human interactants and express emotions appropriately according to situations is essential for affective human-robot interaction. However, enabling current vision-aware multimodal emotion recognition models for affective human-robot interaction in the real-world raises embodiment challenges: addressing the environmental noise issue and meeting real-time requirements. First, in multiparty conversation scenarios, the noises inherited in the visual observation of the robot, which may come from either 1) distracting objects in the scene or 2) inactive speakers appearing in the field of view of the robot, hinder the models from extracting emotional cues from vision inputs. Secondly, realtime response, a desired feature for an interactive system, is also challenging to achieve. To tackle both challenges, we introduce an affective human-robot interaction system called UGotMe designed specifically for multiparty conversations. Two denoising strategies are proposed and incorporated into the system to solve the first issue. Specifically, to filter out distracting objects in the scene, we propose extracting face images of the speakers from the raw images and introduce a customized active face extraction strategy to rule out inactive speakers. As for the second issue, we employ efficient data transmission from the robot to the local server to improve realtime response capability. We deploy UGotMe on a human robot named Ameca to validate its real-time inference capabilities in practical scenarios. Videos demonstrating real-world deployment are available at https://pi3-141592653.github.io/UGotMe/.
arxiv情報
著者 | Peizhen Li,Longbing Cao,Xiao-Ming Wu,Xiaohan Yu,Runze Yang |
発行日 | 2025-03-14 03:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google