Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification

要約

この論文では、オープンセットの視聴覚話者検証用に最適化された堅牢なマルチモーダル人物表現を実現する方法論を紹介します。
通常、距離計量学習 (DML) アプローチが、新しいクラスやまだ見たことのないクラスで優れたパフォーマンスを発揮するため、この問題領域を支配してきました。
私たちの研究では、DML アプローチのパフォーマンスをさらに向上させるマルチタスク学習手法を検討し、弱いラベルを持つ補助タスクが学習された話者表現のコンパクトさを向上できることを示しました。
また、一般化エンドツーエンド損失 (GE2E) をマルチモーダル入力に拡張し、オーディオビジュアル空間で競争力のあるパフォーマンスを達成できることを実証します。
最後に、一般化を向上させることがわかっている、トレーニング中に非同期の視聴覚サンプリングのランダム戦略を導入します。
当社のネットワークは話者検証の最先端のパフォーマンスを実現し、VoxCeleb1-O/E/H の 3 つの公式トライアル リストで 0.244%、0.252%、0.441% の等誤り率 (EER) を報告しています。これは、私たちの知る限り最高です。
VoxCeleb1-E および VoxCeleb1-H の結果を公開しました。

要約(オリジナル)

In this paper, we present a methodology for achieving robust multimodal person representations optimized for open-set audio-visual speaker verification. Distance Metric Learning (DML) approaches have typically dominated this problem space, owing to strong performance on new and unseen classes. In our work, we explored multitask learning techniques to further boost performance of the DML approach and show that an auxiliary task with weak labels can increase the compactness of the learned speaker representation. We also extend the Generalized end-to-end loss (GE2E) to multimodal inputs and demonstrate that it can achieve competitive performance in an audio-visual space. Finally, we introduce a non-synchronous audio-visual sampling random strategy during training time that has shown to improve generalization. Our network achieves state of the art performance for speaker verification, reporting 0.244%, 0.252%, 0.441% Equal Error Rate (EER) on the three official trial lists of VoxCeleb1-O/E/H, which is to our knowledge, the best published results on VoxCeleb1-E and VoxCeleb1-H.

arxiv情報

著者 Anith Selvakumar,Homa Fashandi
発行日 2023-09-13 17:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク