Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention

要約

顔と声が互いに密接に関連しているため、視聴覚融合を使用した個人または身元確認が最近大きな注目を集めています。
オーディオとビジュアルの融合に基づく従来のアプローチは、スコアレベルまたは初期の機能レベルの融合技術に依存しています。
既存のアプローチは単峰性システムに比べて改善を示しましたが、本人確認のためのオーディオとビジュアルの融合の可能性は十分に活用されていません。
この論文では、単一モーダル システムに比べて融合パフォーマンスを大幅に向上させる上で重要な役割を果たす可能性がある、オーディオおよびビジュアル モダリティにわたるモーダル内およびモーダル間の関係の両方を効果的に捕捉する可能性について調査しました。
特に、共同クロスアテンションモデルの再帰的融合を導入します。このモデルでは、共同オーディオビジュアル特徴表現がクロスアテンションフレームワークで再帰的に採用され、イントラおよび効果的にキャプチャできる特徴表現を段階的に改良します。
モーダル間の関係。
オーディオビジュアル特徴表現をさらに強化するために、オーディオビジュアル特徴表現の時間モデリングを改善する BLSTM も検討しました。
提案されたモデルを評価するために、Voxceleb1 データセットに対して広範な実験が行われます。
結果は、提案されたモデルが、オーディオおよびビジュアルモダリティにわたるモーダル内およびモーダル間の関係を適切に捕捉することにより、融合パフォーマンスの有望な改善を示していることを示しています。

要約(オリジナル)

Person or identity verification has been recently gaining a lot of attention using audio-visual fusion as faces and voices share close associations with each other. Conventional approaches based on audio-visual fusion rely on score-level or early feature-level fusion techniques. Though existing approaches showed improvement over unimodal systems, the potential of audio-visual fusion for person verification is not fully exploited. In this paper, we have investigated the prospect of effectively capturing both the intra- and inter-modal relationships across audio and visual modalities, which can play a crucial role in significantly improving the fusion performance over unimodal systems. In particular, we introduce a recursive fusion of a joint cross-attentional model, where a joint audio-visual feature representation is employed in the cross-attention framework in a recursive fashion to progressively refine the feature representations that can efficiently capture the intra-and inter-modal relationships. To further enhance the audio-visual feature representations, we have also explored BLSTMs to improve the temporal modeling of audio-visual feature representations. Extensive experiments are conducted on the Voxceleb1 dataset to evaluate the proposed model. Results indicate that the proposed model shows promising improvement in fusion performance by adeptly capturing the intra-and inter-modal relationships across audio and visual modalities.

arxiv情報

著者 R. Gnana Praveen,Jahangir Alam
発行日 2024-03-07 16:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク