Learning Audio-Visual embedding for Person Verification in the Wild

要約

オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込みよりも堅牢であることが既に観察されています。
ここでは、融合の観点からアグリゲーターを考慮した新しい視聴覚戦略を提案しました。
まず、顔の検証で初めて、重みが強化された注意深い統計プーリングを導入しました。
プーリング中にモダリティ間に強い相関関係が存在することがわかったので、暗黙的なフレーム間重みを学習するためのサイクル一貫性を含む共同注意深いプーリングが提案されます。
最後に、各モダリティはゲート付き注意メカニズムと融合され、堅牢なオーディオビジュアル埋め込みが得られます。
提案されたすべてのモデルは VoxCeleb2 dev データセットでトレーニングされ、最良のシステムは、VoxCeleb1 の 3 つの公式試験リストでそれぞれ 0.18%、0.27%、および 0.49% EER を取得します。

要約(オリジナル)

It has already been observed that audio-visual embedding is more robust than uni-modality embedding for person verification. Here, we proposed a novel audio-visual strategy that considers aggregators from a fusion perspective. First, we introduced weight-enhanced attentive statistics pooling for the first time in face verification. We find that a strong correlation exists between modalities during pooling, so joint attentive pooling is proposed which contains cycle consistency to learn the implicit inter-frame weight. Finally, each modality is fused with a gated attention mechanism to gain robust audio-visual embedding. All the proposed models are trained on the VoxCeleb2 dev dataset and the best system obtains 0.18%, 0.27%, and 0.49% EER on three official trial lists of VoxCeleb1 respectively, which is to our knowledge the best-published results for person verification.

arxiv情報

著者 Peiwen Sun,Shanshan Zhang,Zishan Liu,Yougen Yuan,Taotao Zhang,Honggang Zhang,Pengfei Hu
発行日 2022-10-26 13:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク