要約
大規模な事前トレーニング済み Transformer エンコーダ ネットワークを利用するサウンド イベント検出 (SED) 手法は、最近の DCASE 課題において有望なパフォーマンスを示しています。
ただし、主にラベル付きデータが不足しているため、時間依存関係をモデル化するために依然として RNN ベースのコンテキスト ネットワークに依存しています。
この研究では、MAT-SED と呼ばれる、マスク再構成ベースの事前トレーニングを備えた純粋な Transformer ベースの SED モデルを提案します。
具体的には、相対位置エンコーディングを備えた Transformer は、まずコンテキスト ネットワークとして設計され、利用可能なすべてのターゲット データに対して自己監視型の方法でマスク再構成タスクによって事前トレーニングされます。
エンコーダとコンテキスト ネットワークは両方とも、半教師ありの方法で共同で微調整されます。
さらに、位置特定機能を強化するために、グローバル-ローカル特徴融合戦略が提案されています。
DCASE2023 タスク 4 での MAT-SED の評価は、最先端のパフォーマンスを上回り、それぞれ 0.587/0.896 PSDS1/PSDS2 を達成しました。
要約(オリジナル)
Sound event detection (SED) methods that leverage a large pre-trained Transformer encoder network have shown promising performance in recent DCASE challenges. However, they still rely on an RNN-based context network to model temporal dependencies, largely due to the scarcity of labeled data. In this work, we propose a pure Transformer-based SED model with masked-reconstruction based pre-training, termed MAT-SED. Specifically, a Transformer with relative positional encoding is first designed as the context network, pre-trained by the masked-reconstruction task on all available target data in a self-supervised way. Both the encoder and the context network are jointly fine-tuned in a semi-supervised manner. Furthermore, a global-local feature fusion strategy is proposed to enhance the localization capability. Evaluation of MAT-SED on DCASE2023 task4 surpasses state-of-the-art performance, achieving 0.587/0.896 PSDS1/PSDS2 respectively.
arxiv情報
著者 | Pengfei Cai,Yan Song,Kang Li,Haoyu Song,Ian McLoughlin |
発行日 | 2024-08-16 11:33:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google