要約
汎用の音声表現を学習するための自己教師あり事前トレーニング アプローチである DECAR を紹介します。
当社のシステムはクラスタリングに基づいています。オフライン クラスタリング ステップを利用して、予測タスクを解決するための疑似ラベルとして機能するターゲット ラベルを提供します。
コンピューター ビジョンの自己教師あり学習の最近の進歩に基づいて開発し、軽量で使いやすい自己教師ありの事前トレーニング スキームを設計します。
大規模な Audioset データセットのバランスの取れたサブセットで DECAR 埋め込みを事前トレーニングし、それらの表現を、スピーチ、音楽、動物の音、音響シーンを含む 9 つの下流の分類タスクに転送します。
さらに、主要な設計の選択肢を特定するアブレーション研究を実施し、すべてのコードと事前トレーニング済みのモデルを公開しています。
要約(オリジナル)
We introduce DECAR, a self-supervised pre-training approach for learning general-purpose audio representations. Our system is based on clustering: it utilizes an offline clustering step to provide target labels that act as pseudo-labels for solving a prediction task. We develop on top of recent advances in self-supervised learning for computer vision and design a lightweight, easy-to-use self-supervised pre-training scheme. We pre-train DECAR embeddings on a balanced subset of the large-scale Audioset dataset and transfer those representations to 9 downstream classification tasks, including speech, music, animal sounds, and acoustic scenes. Furthermore, we conduct ablation studies identifying key design choices and also make all our code and pre-trained models publicly available.
arxiv情報
著者 | Sreyan Ghosh,Sandesh V Katta,Ashish Seth,S. Umesh |
発行日 | 2023-03-14 14:29:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google