要約
個人または身元の検証は、主に顔や音声などの個別のモダリティを使用して研究されてきましたが、最近では、オーディオとビジュアルの融合が単一モードのアプローチを上回る大きな可能性を示しています。
オーディオとビジュアルのモダリティは、多くの場合、強力な補完関係をもたらすことが期待されており、これは効果的なオーディオとビジュアルの融合において重要な役割を果たします。
ただし、これらは常に相互に強く補完するとは限らず、弱い補完関係を示し、その結果、オーディオビジュアル機能の表現が不十分になる場合もあります。
この論文では、オーディオおよびビジュアルモダリティ全体で、それぞれ強いまたは弱い相補関係に基づいて、相互参加機能または無人機能をオンザフライで動的に選択できる動的クロスアテンション (DCA) モデルを提案します。
特に、条件付きゲート層は、クロスアテンション メカニズムの寄与を評価し、強い補完関係を示す場合にのみクロスアテンション機能を選択し、それ以外の場合は無人フィーチャを選択するように設計されています。
提案されたモデルの堅牢性を実証するために、Voxceleb1 データセットに対して広範な実験が行われています。
結果は、提案されたモデルがクロスアテンションの複数のバリアントでパフォーマンスを一貫して向上させながら、最先端の方法を上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Although person or identity verification has been predominantly explored using individual modalities such as face and voice, audio-visual fusion has recently shown immense potential to outperform unimodal approaches. Audio and visual modalities are often expected to pose strong complementary relationships, which plays a crucial role in effective audio-visual fusion. However, they may not always strongly complement each other, they may also exhibit weak complementary relationships, resulting in poor audio-visual feature representations. In this paper, we propose a Dynamic Cross-Attention (DCA) model that can dynamically select the cross-attended or unattended features on the fly based on the strong or weak complementary relationships, respectively, across audio and visual modalities. In particular, a conditional gating layer is designed to evaluate the contribution of the cross-attention mechanism and choose cross-attended features only when they exhibit strong complementary relationships, otherwise unattended features. Extensive experiments are conducted on the Voxceleb1 dataset to demonstrate the robustness of the proposed model. Results indicate that the proposed model consistently improves the performance on multiple variants of cross-attention while outperforming the state-of-the-art methods.
arxiv情報
著者 | R. Gnana Praveen,Jahangir Alam |
発行日 | 2024-04-22 14:04:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google