要約
共同スピーチのジェスチャーは、非言語的コミュニケーションにおいて重要な役割を果たします。
この論文では、野生での共和声ジェスチャー理解のための新しいフレームワークを紹介します。
具体的には、ジェスチャーテキストスピーチの関連付けを理解するためのモデルの機能を評価するための3つの新しいタスクとベンチマークを提案します:(i)ジェスチャーベースの検索、(ii)ジェスチャーワードスポッティング、および(iii)ジェスチャーを使用したアクティブスピーカー検出。
これらのタスクを解決するために、トライモーダルの音声テキスト – ビデオゼアの表現を学習する新しいアプローチを提示します。
グローバルなフレーズの対照的な損失とローカルなジェスチャーワードの結合損失の組み合わせを活用することにより、強いジェスチャー表現は、野生のビデオから弱く監視された方法で学習できることを実証します。
学習した表現は、3つのタスクすべてにわたって、大規模な視覚言語モデル(VLMS)を含む以前の方法よりも優れています。
さらなる分析により、音声とテキストのモダリティが明確なジェスチャー関連信号をキャプチャし、共有されたトライモーダル埋め込みスペースを学習することの利点を強調していることが明らかになりました。
データセット、モデル、およびコードは、https://www.robots.ox.ac.uk/~vgg/research/jegalで入手できます
要約(オリジナル)
Co-speech gestures play a vital role in non-verbal communication. In this paper, we introduce a new framework for co-speech gesture understanding in the wild. Specifically, we propose three new tasks and benchmarks to evaluate a model’s capability to comprehend gesture-text-speech associations: (i) gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker detection using gestures. We present a new approach that learns a tri-modal speech-text-video-gesture representation to solve these tasks. By leveraging a combination of global phrase contrastive loss and local gesture-word coupling loss, we demonstrate that a strong gesture representation can be learned in a weakly supervised manner from videos in the wild. Our learned representations outperform previous methods, including large vision-language models (VLMs), across all three tasks. Further analysis reveals that speech and text modalities capture distinct gesture-related signals, underscoring the advantages of learning a shared tri-modal embedding space. The dataset, model, and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegal
arxiv情報
著者 | Sindhu B Hegde,K R Prajwal,Taein Kwon,Andrew Zisserman |
発行日 | 2025-03-28 17:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google