Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization

要約

アクティブ話者検出 (ASD) のための従来のオーディオビジュアル アプローチは、通常、ビデオ内の話者を見つけるために、視覚的に事前に抽出された顔トラックと対応する単一チャネル音声に依存しています。
したがって、発言者の顔が見えない場合は毎回失敗する傾向があります。
マルチチャネルオーディオから抽出された空間入力特徴を使用してトレーニングされた単純なオーディオ畳み込みリカレントニューラルネットワーク(CRNN)が、視覚モダリティとは独立して、水平アクティブ話者検出および定位(ASDL)を同時に実行できることを実証します。
このようなシステムをトレーニングするためのグラウンド トゥルース ラベルを生成する時間とコストに対処するために、「生徒と教師」の学習アプローチを採用した新しい自己教師ありトレーニング パイプラインを提案します。
従来の事前トレーニング済みアクティブ話者検出器が「教師」ネットワークとして採用され、話者の位置を擬似ラベルとして提供します。
マルチチャンネル オーディオの「スチューデント」ネットワークは、同じ結果を生成するようにトレーニングされています。
推論において、生徒ネットワークは一般化して、教師ネットワークが視覚的に検出できない遮蔽された話者も特定できるため、再現率が大幅に向上します。
TragicTalkers データセットの実験では、提案された自己教師あり学習アプローチでトレーニングされたオーディオ ネットワークが、典型的な視聴覚手法のパフォーマンスを上回り、コストのかかる従来の教師ありトレーニングに匹敵する結果を生み出すことができることが示されています。
学習パイプラインに最小限の手動監視を導入すると、改善が達成できることを実証します。
トレーニング セットを大きくし、ビジョンをマルチチャンネル オーディオ システムと統合することで、さらなる利益が得られる可能性があります。

要約(オリジナル)

Conventional audio-visual approaches for active speaker detection (ASD) typically rely on visually pre-extracted face tracks and the corresponding single-channel audio to find the speaker in a video. Therefore, they tend to fail every time the face of the speaker is not visible. We demonstrate that a simple audio convolutional recurrent neural network (CRNN) trained with spatial input features extracted from multichannel audio can perform simultaneous horizontal active speaker detection and localization (ASDL), independently of the visual modality. To address the time and cost of generating ground truth labels to train such a system, we propose a new self-supervised training pipeline that embraces a “student-teacher” learning approach. A conventional pre-trained active speaker detector is adopted as a “teacher” network to provide the position of the speakers as pseudo-labels. The multichannel audio “student” network is trained to generate the same results. At inference, the student network can generalize and locate also the occluded speakers that the teacher network is not able to detect visually, yielding considerable improvements in recall rate. Experiments on the TragicTalkers dataset show that an audio network trained with the proposed self-supervised learning approach can exceed the performance of the typical audio-visual methods and produce results competitive with the costly conventional supervised training. We demonstrate that improvements can be achieved when minimal manual supervision is introduced in the learning pipeline. Further gains may be sought with larger training sets and integrating vision with the multichannel audio system.

arxiv情報

著者 Davide Berghi,Philip J. B. Jackson
発行日 2023-12-21 16:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.IV, eess.SP パーマリンク