Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

要約

このレポートでは、Ego4D Challenge 2022 のオーディオビジュアル ダイアライゼーション (AVD) タスクに対する当社のアプローチについて説明します。具体的には、公式ベースラインに対する複数の技術的改善を示します。
まず、モデルのトレーニング スキームを変更することで、カメラ装着者の音声アクティビティの検出パフォーマンスを向上させます。
第 2 に、既製の音声アクティビティ検出モデルをカメラ装着者の音声アクティビティにのみ適用した場合、誤検知を効果的に除去できることを発見しました。
最後に、アクティブ スピーカーの検出が向上すると、AVD の結果が向上することを示します。
私たちの最終的な方法では、Ego4D のテスト セットで 65.9% の DER が得られ、すべてのベースラインを大幅に上回りました。
私たちの応募作品は、Ego4D Challenge 2022 で 1 位を獲得しました。

要約(オリジナル)

This report describes our approach for the Audio-Visual Diarization (AVD) task of the Ego4D Challenge 2022. Specifically, we present multiple technical improvements over the official baselines. First, we improve the detection performance of the camera wearer’s voice activity by modifying the training scheme of its model. Second, we discover that an off-the-shelf voice activity detection model can effectively remove false positives when it is applied solely to the camera wearer’s voice activities. Lastly, we show that better active speaker detection leads to a better AVD outcome. Our final method obtains 65.9% DER on the test set of Ego4D, which significantly outperforms all the baselines. Our submission achieved 1st place in the Ego4D Challenge 2022.

arxiv情報

著者 Kyle Min
発行日 2023-10-29 19:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク