要約
対面の相互作用では、音声やジェスチャーを含む複数のモダリティを使用して、情報を伝え、オブジェクトへの参照を解決します。
ただし、代表的な共和状態のジェスチャーがオブジェクトをどのように参照するかは、計算の観点からは理解されたままです。
この作業では、表現ジェスチャーを中心としたマルチモーダル参照解像度タスクを導入すると同時に、堅牢なジェスチャーの埋め込みを学習するという課題に取り組むことにより、このギャップに対処します。
私たちは、話された言語で身体の動きを根拠とするジェスチャー表現学習に対する自己監督の事前訓練アプローチを提案します。
私たちの実験は、学習した埋め込みが専門家の注釈と整合し、有意な予測力を持っていることを示しています。
さらに、参照解像度の精度は、(1)推論時に音声が利用できない場合でも、マルチモーダルジェスチャー表現を使用し、(2)対話履歴を活用するとさらに改善されます。
全体として、私たちの調査結果は、参照解決におけるジェスチャーとスピーチの補完的な役割を強調し、ヒューマンマシン相互作用のより自然主義的なモデルへの一歩を提供します。
要約(オリジナル)
In face-to-face interaction, we use multiple modalities, including speech and gestures, to communicate information and resolve references to objects. However, how representational co-speech gestures refer to objects remains understudied from a computational perspective. In this work, we address this gap by introducing a multimodal reference resolution task centred on representational gestures, while simultaneously tackling the challenge of learning robust gesture embeddings. We propose a self-supervised pre-training approach to gesture representation learning that grounds body movements in spoken language. Our experiments show that the learned embeddings align with expert annotations and have significant predictive power. Moreover, reference resolution accuracy further improves when (1) using multimodal gesture representations, even when speech is unavailable at inference time, and (2) leveraging dialogue history. Overall, our findings highlight the complementary roles of gesture and speech in reference resolution, offering a step towards more naturalistic models of human-machine interaction.
arxiv情報
著者 | Esam Ghaleb,Bulat Khaertdinov,Aslı Özyürek,Raquel Fernández |
発行日 | 2025-06-02 14:52:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google