Audio-Visual Speaker Verification via Joint Cross-Attention

要約

話者検証は音声信号を使用して広く検討されており、ディープ モデルを使用することで大幅な改善が見られています。
最近、単一の音声信号のみに依存するよりも、より補完的で包括的な情報を提供できるため、顔と声を探索することが急増しています。
顔と声の融合に関する文献における現在の方法は、個々の顔や声のモダリティよりも改善が見られていますが、話者検証における視聴覚融合の可能性は十分に検討されていません。
オーディオビジュアル融合に基づく既存の方法のほとんどは、スコアレベルの融合または単純な特徴の連結に依存しています。
この研究では、話者検証のためにモーダル間の補完情報とモーダル内情報を十分に活用するためのクロスモーダル共同注意を検討しました。
具体的には、顔と声の間のモーダル内およびモーダル間の関係の両方を効果的にキャプチャするために、共同特徴表現と個々の特徴表現の相関関係に基づいてクロスアテンションの重みを推定します。
私たちは、モーダル内およびモーダル間の関係を効率的に活用することで、話者検証における視聴覚融合のパフォーマンスが大幅に向上することを示しました。
提案されたアプローチのパフォーマンスは、Voxceleb1 データセットで評価されました。
結果は、提案されたアプローチが話者検証のためのオーディオビジュアル融合の最先端の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Speaker verification has been widely explored using speech signals, which has shown significant improvement using deep models. Recently, there has been a surge in exploring faces and voices as they can offer more complementary and comprehensive information than relying only on a single modality of speech signals. Though current methods in the literature on the fusion of faces and voices have shown improvement over that of individual face or voice modalities, the potential of audio-visual fusion is not fully explored for speaker verification. Most of the existing methods based on audio-visual fusion either rely on score-level fusion or simple feature concatenation. In this work, we have explored cross-modal joint attention to fully leverage the inter-modal complementary information and the intra-modal information for speaker verification. Specifically, we estimate the cross-attention weights based on the correlation between the joint feature presentation and that of the individual feature representations in order to effectively capture both intra-modal as well inter-modal relationships among the faces and voices. We have shown that efficiently leveraging the intra- and inter-modal relationships significantly improves the performance of audio-visual fusion for speaker verification. The performance of the proposed approach has been evaluated on the Voxceleb1 dataset. Results show that the proposed approach can significantly outperform the state-of-the-art methods of audio-visual fusion for speaker verification.

arxiv情報

著者 R. Gnana Praveen,Jahangir Alam
発行日 2023-09-28 16:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク