Active Listener: Continuous Generation of Listener’s Head Motion Response in Dyadic Interactions

要約

二項音声対話の重要な要素は、対話者の発話に対する聞き手の反応を反映する頭の動きなど、文脈に関連した非言語的ジェスチャーです。
共同スピーチジェスチャーの生成に関しては大きな進歩が見られましたが、聞き手の応答を生成することは依然として課題です。
話者の発話に応じて聞き手の連続的な頭の動きの応答をリアルタイムで生成するタスクを紹介します。
この目的を達成するために、対話者の音声音声を入力として受け取り、リスナーの頭姿勢角 (ロール、ピッチ、ヨー) をリアルタイムで直接生成する、グラフベースのエンドツーエンドのクロスモーダル モデルを提案します。
以前の研究とは異なり、私たちのアプローチは完全にデータ駆動型であり、手動の注釈を必要とせず、単にうなずいたり振ったりするだけの頭の動きを過度に単純化したりする必要もありません。
IEMOCAP データセット上の二項対話セッションの広範な評価により、このモデルが低い全体誤差 (4.5 度) と高いフレーム レートを生成することが示され、それによって現実世界の人間とロボットの対話システムへの展開可能性が示されました。
私たちのコードは、https://github.com/bigzen/Active-Listener で入手できます。

要約(オリジナル)

A key component of dyadic spoken interactions is the contextually relevant non-verbal gestures, such as head movements that reflect a listener’s response to the interlocutor’s speech. Although significant progress has been made in the context of generating co-speech gestures, generating listener’s response has remained a challenge. We introduce the task of generating continuous head motion response of a listener in response to the speaker’s speech in real time. To this end, we propose a graph-based end-to-end crossmodal model that takes interlocutor’s speech audio as input and directly generates head pose angles (roll, pitch, yaw) of the listener in real time. Different from previous work, our approach is completely data-driven, does not require manual annotations or oversimplify head motion to merely nods and shakes. Extensive evaluation on the dyadic interaction sessions on the IEMOCAP dataset shows that our model produces a low overall error (4.5 degrees) and a high frame rate, thereby indicating its deployability in real-world human-robot interaction systems. Our code is available at – https://github.com/bigzen/Active-Listener

arxiv情報

著者 Bishal Ghosh,Emma Li,Tanaya Guha
発行日 2024-09-30 11:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS パーマリンク