UGotMe: An Embodied System for Affective Human-Robot Interaction

要約

人間とロボットの感情的な相互作用には、人間の対話者の感情状態を理解し、状況に応じて適切に感情を表現する能力をヒューマノイドロボットに装備することが不可欠です。
しかし、現実世界における人間とロボットの感情的な相互作用のための現在の視覚認識型マルチモーダル感情認識モデルを可能にするには、環境騒音問題への対処とリアルタイム要件への対応という実装上の課題が生じます。
まず、多者間の会話シナリオでは、ロボットの視覚的観察に引き継がれるノイズ (1) シーン内の気が散る物体、または 2) ロボットの視野内に現れる非アクティブな話者のいずれかから発生する可能性があり、モデルの抽出を妨げます。
視覚入力からの感情的な手がかり。
第二に、対話型システムに求められる機能であるリアルタイム応答も達成が困難です。
両方の課題に取り組むために、多者間の会話のために特別に設計された UGotMe と呼ばれる、人間とロボットの感情的な対話システムを導入します。
最初の問題を解決するために、2 つのノイズ除去戦略が提案され、システムに組み込まれます。
具体的には、シーン内の気が散るオブジェクトをフィルタリングするために、生の画像から話者の顔画像を抽出することを提案し、非アクティブな話者を除外するためにカスタマイズされたアクティブな顔抽出戦略を導入します。
2つ目については、ロボットからローカルサーバーへの効率的なデータ送信を実現し、リアルタイム応答性を向上させます。
UGotMe を Ameca という名前の人間ロボットにデプロイし、実際のシナリオでリアルタイム推論機能を検証します。
実際のデプロイメントをデモするビデオは、https://pi3-141592653.github.io/UGotMe/ で入手できます。

要約(オリジナル)

Equipping humanoid robots with the capability to understand emotional states of human interactants and express emotions appropriately according to situations is essential for affective human-robot interaction. However, enabling current vision-aware multimodal emotion recognition models for affective human-robot interaction in the real-world raises embodiment challenges: addressing the environmental noise issue and meeting real-time requirements. First, in multiparty conversation scenarios, the noises inherited in the visual observation of the robot, which may come from either 1) distracting objects in the scene or 2) inactive speakers appearing in the field of view of the robot, hinder the models from extracting emotional cues from vision inputs. Secondly, realtime response, a desired feature for an interactive system, is also challenging to achieve. To tackle both challenges, we introduce an affective human-robot interaction system called UGotMe designed specifically for multiparty conversations. Two denoising strategies are proposed and incorporated into the system to solve the first issue. Specifically, to filter out distracting objects in the scene, we propose extracting face images of the speakers from the raw images and introduce a customized active face extraction strategy to rule out inactive speakers. As for the second issue, we employ efficient data transmission from the robot to the local server to improve realtime response capability. We deploy UGotMe on a human robot named Ameca to validate its real-time inference capabilities in practical scenarios. Videos demonstrating real-world deployment are available at https://pi3-141592653.github.io/UGotMe/.

arxiv情報

著者 Peizhen Li,Longbing Cao,Xiao-Ming Wu,Xiaohan Yu,Runze Yang
発行日 2024-10-24 02:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク