DECAR: Deep Clustering for learning general-purpose Audio Representations

要約

汎用の音声表現を学習するための自己教師あり事前トレーニング アプローチである DECAR を紹介します。
当社のシステムはクラスタリングに基づいています。オフライン クラスタリング ステップを利用して、予測タスクを解決するための疑似ラベルとして機能するターゲット ラベルを提供します。
コンピューター ビジョンの自己教師あり学習の最近の進歩に基づいて開発し、軽量で使いやすい自己教師ありの事前トレーニング スキームを設計します。
大規模な Audioset データセットのバランスの取れたサブセットで DECAR 埋め込みを事前トレーニングし、それらの表現を、スピーチ、音楽、動物の音、音響シーンを含む 9 つの下流の分類タスクに転送します。
さらに、主要な設計の選択肢を特定するアブレーション研究を実施し、すべてのコードと事前トレーニング済みのモデルを公開しています。

要約(オリジナル)

We introduce DECAR, a self-supervised pre-training approach for learning general-purpose audio representations. Our system is based on clustering: it utilizes an offline clustering step to provide target labels that act as pseudo-labels for solving a prediction task. We develop on top of recent advances in self-supervised learning for computer vision and design a lightweight, easy-to-use self-supervised pre-training scheme. We pre-train DECAR embeddings on a balanced subset of the large-scale Audioset dataset and transfer those representations to 9 downstream classification tasks, including speech, music, animal sounds, and acoustic scenes. Furthermore, we conduct ablation studies identifying key design choices and also make all our code and pre-trained models publicly available.

arxiv情報

著者 Sreyan Ghosh,Sandesh V Katta,Ashish Seth,S. Umesh
発行日 2023-03-14 14:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク