PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association

要約

私たちは、最近マルチモーダルコミュニティに関心を集めている顔と声の間の学習関連のタスクを研究しています。
これらの方法は、マイナスマイニング手順の意図的なクラフトと、遠いマージンパラメーターへの依存に悩まされています。
これらの問題は、直交の制約が顔と声の融合埋め込みに適用される共同埋め込みスペースを学習することによって対処されます。
ただし、顔と声のスペースを埋め込むには、さまざまな特性があり、融合する前にスペースを調整する必要があります。
この目的のために、埋め込みスペースを正確に整列させ、それらを強化されたゲート融合と融合させる方法を提案し、それにより、顔と声の関連性のパフォーマンスを改善します。
VoxceleBデータセットでの広範な実験は、提案されたアプローチのメリットを明らかにしています。

要約(オリジナル)

We study the task of learning association between faces and voices, which is gaining interest in the multimodal community lately. These methods suffer from the deliberate crafting of negative mining procedures as well as the reliance on the distant margin parameter. These issues are addressed by learning a joint embedding space in which orthogonality constraints are applied to the fused embeddings of faces and voices. However, embedding spaces of faces and voices possess different characteristics and require spaces to be aligned before fusing them. To this end, we propose a method that accurately aligns the embedding spaces and fuses them with an enhanced gated fusion thereby improving the performance of face-voice association. Extensive experiments on the VoxCeleb dataset reveals the merits of the proposed approach.

arxiv情報

著者 Abdul Hannan,Muhammad Arslan Manzoor,Shah Nawaz,Muhammad Irzam Liaqat,Markus Schedl,Mubashir Noman
発行日 2025-05-22 17:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク