Learning Audio-Visual embedding for Wild Person Verification

要約

これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人物検証の堅牢性を得ることができることは既に観察されています。
ただし、各フレームから単一の発話表現を生成するために使用されるアグリゲーターは、十分に調査されていないようです。
この記事では、融合の観点からアグリゲーターを考慮した視聴覚ネットワークを提案しました。
顔検証で初めて、改善された注意深い統計プーリングを導入しました。
次に、プーリング中にモダリティ間に強い相関が存在することを発見したため、暗黙的なフレーム間重みを学習するためのサイクル一貫性を含む共同注意深いプーリングが提案されます。
最後に、モダリティをゲート付き注意メカニズムと融合します。
提案されたすべてのモデルは VoxCeleb2 dev データセットでトレーニングされ、最高のシステムは VoxCeleb1 の 3 つの公式トレイル リストでそれぞれ 0.18\%、0.27\%、および 0.49\% EER を取得します。
検証。
分析として、このシステムがモダリティ間でどのように相互作用するかを説明するために、視覚化マップが生成されます。

要約(オリジナル)

It has already been observed that audio-visual embedding can be extracted from these two modalities to gain robustness for person verification. However, the aggregator that used to generate a single utterance representation from each frame does not seem to be well explored. In this article, we proposed an audio-visual network that considers aggregator from a fusion perspective. We introduced improved attentive statistics pooling for the first time in face verification. Then we find that strong correlation exists between modalities during pooling, so joint attentive pooling is proposed which contains cycle consistency to learn the implicit inter-frame weight. Finally, fuse the modality with a gated attention mechanism. All the proposed models are trained on the VoxCeleb2 dev dataset and the best system obtains 0.18\%, 0.27\%, and 0.49\% EER on three official trail lists of VoxCeleb1 respectively, which is to our knowledge the best-published results for person verification. As an analysis, visualization maps are generated to explain how this system interact between modalities.

arxiv情報

著者 Peiwen Sun,Shanshan Zhang,Zishan Liu,Yougen Yuan,Taotao Zhang,Honggang Zhang,Pengfei Hu
発行日 2022-09-09 02:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク