Leveraging Speech for Gesture Detection in Multimodal Communication

要約

ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションでは音声を補完することが多く、マルチモーダルなコミュニケーション システムを形成します。
ジェスチャ分析における重要なタスクは、ジェスチャの開始と終了を検出することです。
自動ジェスチャ検出に関する研究は主に、ばらつきの少ない孤立したジェスチャまたは沈黙のジェスチャの限られたセットを検出するための視覚情報および運動学的情報に焦点を当てており、音声と同時に発生するジェスチャを検出するための音声信号と視覚信号の統合は無視されてきました。
この研究では、同時音声ジェスチャの検出に焦点を当て、音声と同時音声の手のジェスチャの同期性を強調することで、このギャップに対処しています。
私たちは、ジェスチャー形式の多様性、ジェスチャーと音声の開始の間の時間的不一致、モダリティ間のサンプリング レートの違いという 3 つの主要な課題に取り組んでいます。
私たちは、拡張された音声時間ウィンドウを調査し、モダリティごとに個別のバックボーン モデルを採用して、時間的な不整合とサンプリング レートの違いに対処します。
私たちは、クロスモーダルおよび初期融合技術で Transformer エンコーダを利用して、音声と骨格シーケンスを効果的に位置合わせして統合します。
研究結果は、視覚情報と音声情報を組み合わせることでジェスチャ検出パフォーマンスが大幅に向上することを示しています。
私たちの調査結果は、視覚的な時間セグメントを超えて音声バッファを拡張するとパフォーマンスが向上すること、およびクロスモーダルおよび早期融合手法を使用したマルチモーダル統合が、単峰性および後期融合手法を使用したベースライン手法よりも優れていることを示しています。
さらに、モデルのジェスチャー予測の信頼性と、ジェスチャーに関連する可能性のある低レベルの音声周波数の特徴との間に相関関係があることがわかりました。
全体として、この研究は共話ジェスチャーのより良い理解と検出方法を提供し、マルチモーダルコミュニケーションの分析を容易にします。

要約(オリジナル)

Gestures are inherent to human interaction and often complement speech in face-to-face communication, forming a multimodal communication system. An important task in gesture analysis is detecting a gesture’s beginning and end. Research on automatic gesture detection has primarily focused on visual and kinematic information to detect a limited set of isolated or silent gestures with low variability, neglecting the integration of speech and vision signals to detect gestures that co-occur with speech. This work addresses this gap by focusing on co-speech gesture detection, emphasising the synchrony between speech and co-speech hand gestures. We address three main challenges: the variability of gesture forms, the temporal misalignment between gesture and speech onsets, and differences in sampling rate between modalities. We investigate extended speech time windows and employ separate backbone models for each modality to address the temporal misalignment and sampling rate differences. We utilize Transformer encoders in cross-modal and early fusion techniques to effectively align and integrate speech and skeletal sequences. The study results show that combining visual and speech information significantly enhances gesture detection performance. Our findings indicate that expanding the speech buffer beyond visual time segments improves performance and that multimodal integration using cross-modal and early fusion techniques outperforms baseline methods using unimodal and late fusion methods. Additionally, we find a correlation between the models’ gesture prediction confidence and low-level speech frequency features potentially associated with gestures. Overall, the study provides a better understanding and detection methods for co-speech gestures, facilitating the analysis of multimodal communication.

arxiv情報

著者 Esam Ghaleb,Ilya Burenko,Marlou Rasenberg,Wim Pouw,Ivan Toni,Peter Uhrig,Anna Wilson,Judith Holler,Aslı Özyürek,Raquel Fernández
発行日 2024-04-23 11:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク