要約
我々は、AudioFormer という名前のメソッドを提案します。このメソッドは、離散音響コードの取得を通じてオーディオ特徴表現を学習し、その後オーディオ分類タスク用に微調整します。
最初に、音声分類タスクを自然言語理解 (NLU) の形式として考えることによって、新しい視点を導入します。
既存のニューラル オーディオ コーデック モデルを活用して、離散音響コードを生成し、それを使用してマスク言語モデル (MLM) をトレーニングし、それによってオーディオ特徴表現を取得します。
さらに、当社は、Multi-Positive Sample Contrastive (MPC) 学習アプローチの統合を先駆的に行っています。
この方法により、同じオーディオ入力内の複数の離散音響コード間の結合表現を学習できます。
私たちの実験では、離散音響コードをテキストデータとして扱い、クローゼのような方法論を使用してマスクされた言語モデルをトレーニングし、最終的に高品質の音声表現を導き出します。
特に、MPC 学習手法は、個別の陽性サンプル間の協調表現を効果的に捕捉します。
私たちの研究結果は、AudioFormer が複数のデータセットにわたって一般的なモノモーダルオーディオ分類モデルと比較してパフォーマンスが大幅に向上し、一部のデータセットではオーディオビジュアルマルチモーダル分類モデルを上回るパフォーマンスを示していることを示しています。
具体的には、私たちのアプローチは、AudioSet (2M,20K)、および FSD50K を含むデータセットで、それぞれ 53.9、45.1、および 65.6 のパフォーマンス スコアで顕著な結果を達成しました。
コードとモデルの両方をオープンに共有しています: https://github.com/LZH-0225/AudioFormer.git。
要約(オリジナル)
We propose a method named AudioFormer,which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially,we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model,we generate discrete acoustic codes and utilize them to train a masked language model (MLM),thereby obtaining audio feature representations. Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments,we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology,ultimately deriving high-quality audio representations. Notably,the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets,and even outperforms audio-visual multimodal classification models on select datasets. Specifically,our approach achieves remarkable results on datasets including AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and 65.6,respectively. We have openly shared both the code and models: https://github.com/LZH-0225/AudioFormer.git.
arxiv情報
著者 | Zhaohui Li,Haitao Wang,Xinghua Jiang |
発行日 | 2023-08-23 14:24:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google