要約
最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます注目を集めています。
この論文では、視覚領域を超えて、サウンド イベント検出 (SED) のための LM の生成能力をさらに調査します。
具体的には、音声イベントの分類と時間的位置を達成するために、オーディオの特徴とテキストの特徴を調整するエレガントな方法を提案します。
このフレームワークは、音響エンコーダー、テキストとオーディオの対応する表現を調整するコントラスト モジュール、およびオーディオ特性から時間シーケンスとイベント シーケンスを生成する分離言語デコーダーで構成されます。
複雑な処理を必要とし、限られたオーディオ機能をほとんど利用しない従来の作品と比較して、私たちのモデルは、言語モデルがその意味論的機能を直接活用してシーケンスを生成するため、より簡潔かつ包括的です。
タイムスタンプのキャプチャとイベント分類の有効性を実証するために、さまざまなデカップリング モジュールを調査します。
評価結果は、提案手法が正確なサウンドイベント検出シーケンスを達成することを示しています。
要約(オリジナル)
Recently, the ability of language models (LMs) has attracted increasing attention in visual cross-modality. In this paper, we further explore the generation capacity of LMs for sound event detection (SED), beyond the visual domain. Specifically, we propose an elegant method that aligns audio features and text features to accomplish sound event classification and temporal location. The framework consists of an acoustic encoder, a contrastive module that align the corresponding representations of the text and audio, and a decoupled language decoder that generates temporal and event sequences from the audio characteristic. Compared with conventional works that require complicated processing and barely utilize limited audio features, our model is more concise and comprehensive since language model directly leverage its semantic capabilities to generate the sequences. We investigate different decoupling modules to demonstrate the effectiveness for timestamps capture and event classification. Evaluation results show that the proposed method achieves accurate sequences of sound event detection.
arxiv情報
著者 | Hualei Wang,Jianguo Mao,Zhifang Guo,Jiarui Wan,Hong Liu,Xiangdong Wang |
発行日 | 2023-08-22 15:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google