要約
このレポートでは、DCASE2024 タスク 3 チャレンジ「音源距離推定によるオーディオおよび視聴覚サウンド イベントの位置特定と検出 (トラック B)」に提出されたシステムについて説明します。
私たちのメイン モデルはオーディオビジュアル (AV) Conformer に基づいており、ResNet50 で抽出されたビデオとオーディオの埋め込みを、SELD で事前トレーニングされたオーディオ エンコーダーでそれぞれ処理します。
このモデルは、STARSS23 データセットの開発セットの視聴覚ベースラインを大幅に上回り、DOAE を半減し、F1 を 3 倍以上改善しました。
2 番目のシステムは、AV-Conformer の出力から時間的アンサンブルを実行します。
次に、無指向性オーディオ チャネルから抽出された直接信号成分と残響信号成分、ビデオ フレームから抽出された深度マップなど、距離推定のための機能を使用してモデルを拡張しました。
新しいシステムにより、前モデルの RDE は約 3 パーセント向上しましたが、F1 スコアはより低くなりました。
これは、分析によって判断できるように、トレーニング セットにはめったに表示されず、より複雑なシステムでは検出されないサウンド クラスが原因である可能性があります。
この問題を克服するために、4 番目で最後のシステムは、他の 3 つの予測を組み合わせたアンサンブル戦略で構成されています。
システムとトレーニング戦略を改良する多くの機会は、今後のアブレーション実験でテストすることができ、おそらくこの視聴覚タスクのパフォーマンス向上が段階的に達成される可能性があります。
要約(オリジナル)
This report describes our systems submitted for the DCASE2024 Task 3 challenge: Audio and Audiovisual Sound Event Localization and Detection with Source Distance Estimation (Track B). Our main model is based on the audio-visual (AV) Conformer, which processes video and audio embeddings extracted with ResNet50 and with an audio encoder pre-trained on SELD, respectively. This model outperformed the audio-visual baseline of the development set of the STARSS23 dataset by a wide margin, halving its DOAE and improving the F1 by more than 3x. Our second system performs a temporal ensemble from the outputs of the AV-Conformer. We then extended the model with features for distance estimation, such as direct and reverberant signal components extracted from the omnidirectional audio channel, and depth maps extracted from the video frames. While the new system improved the RDE of our previous model by about 3 percentage points, it achieved a lower F1 score. This may be caused by sound classes that rarely appear in the training set and that the more complex system does not detect, as analysis can determine. To overcome this problem, our fourth and final system consists of an ensemble strategy combining the predictions of the other three. Many opportunities to refine the system and training strategy can be tested in future ablation experiments, and likely achieve incremental performance gains for this audio-visual task.
arxiv情報
著者 | Davide Berghi,Philip J. B. Jackson |
発行日 | 2024-10-29 17:28:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google