Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

要約

このレポートでは、Ego4D チャレンジ 2022 のオーディオ ビジュアル ダイアライゼーション (AVD) タスクに対する私たちのアプローチについて説明します。具体的には、公式ベースラインに対する複数の技術的改善を提示します。
まず、モデルのトレーニング スキームを変更することにより、カメラ装着者の音声アクティビティの検出パフォーマンスを向上させます。
次に、市販の音声アクティビティ検出モデルをカメラ装着者の音声アクティビティのみに適用すると、偽陽性を効果的に除去できることを発見しました。
最後に、アクティブ スピーカーの検出が向上すると、AVD の結果が向上することを示します。
最終的な方法では、Ego4D のテスト セットで 65.9% の DER が得られ、すべてのベースラインよりも大幅に優れています。
私たちの投稿は、Ego4D Challenge 2022 で 1 位を獲得しました。

要約(オリジナル)

This report describes our approach for the Audio-Visual Diarization (AVD) task of the Ego4D Challenge 2022. Specifically, we present multiple technical improvements over the official baselines. First, we improve the detection performance of the camera wearer’s voice activity by modifying the training scheme of its model. Second, we discover that an off-the-shelf voice activity detection model can effectively remove false positives when it is applied solely to the camera wearer’s voice activities. Lastly, we show that better active speaker detection leads to a better AVD outcome. Our final method obtains 65.9% DER on the test set of Ego4D, which significantly outperforms all the baselines. Our submission achieved 1st place in the Ego4D Challenge 2022.

arxiv情報

著者 Kyle Min
発行日 2022-10-14 12:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク