Comparison of semi-supervised deep learning algorithms for audio classification

要約

この記事では、最近の 5 つの SSL メソッドを音声分類のタスクに適用しました。
最初の 2 つの方法、つまり Deep Co-Training (DCT) と Mean Teacher (MT) には、2 つの共同ニューラル ネットワークが含まれます。
MixMatch (MM)、ReMixMatch (RMM)、および FixMatch (FM) と呼ばれる他の 3 つのアルゴリズムは、主にデータ拡張戦略に依存する単一モデルの方法です。
すべての実験で Wide-ResNet-28-2 アーキテクチャを使用し、ラベル付きデータの 10% と残りの 90% をトレーニング用のラベルなしデータとして使用して、最初に 3 つの標準ベンチマーク オーディオ データセットで 5 つの方法のエラー率を比較します。
分類 (ESC-10)、UrbanSound8K (UBS8K)、および Google 音声コマンド (GSC)。
1 つのケースを除くすべてのケースで、MM、RMM、および FM が MT および DCT よりも大幅に優れており、ほとんどの実験で MM および RMM が最良の方法でした。
UBS8K と GSC では、MM はそれぞれ 18.02% と 3.25% のエラー率 (ER) を達成し、利用可能なラベル付きデータの 100% でトレーニングされたモデルを上回り、それぞれ 23.29% と 4.94% に達しました。
RMM は ESC-10 で最高の結果 (12.00% ER) を達成し、続いて FM が 13.33% に達しました。
次に、MM と RMM で使用されるミックスアップ拡張を DCT、MT、および FM に追加することを検討しました。
ほとんどすべてのケースで、ミックスアップは一貫した利益をもたらしました。
たとえば、GSC では、FM は混合の有無にかかわらず 4.44% および 3.31% ER に達しました。
私たちの PyTorch コードは、https://github で書類が承認された時点で利用可能になります。
com/Labbe ti/SSLH.

要約(オリジナル)

In this article, we adapted five recent SSL methods to the task of audio classification. The first two methods, namely Deep Co-Training (DCT) and Mean Teacher (MT), involve two collaborative neural networks. The three other algorithms, called MixMatch (MM), ReMixMatch (RMM), and FixMatch (FM), are single-model methods that rely primarily on data augmentation strategies. Using the Wide-ResNet-28-2 architecture in all our experiments, 10% of labeled data and the remaining 90% as unlabeled data for training, we first compare the error rates of the five methods on three standard benchmark audio datasets: Environmental Sound Classification (ESC-10), UrbanSound8K (UBS8K), and Google Speech Commands (GSC). In all but one cases, MM, RMM, and FM outperformed MT and DCT significantly, MM and RMM being the best methods in most experiments. On UBS8K and GSC, MM achieved 18.02% and 3.25% error rate (ER), respectively, outperforming models trained with 100% of the available labeled data, which reached 23.29% and 4.94%, respectively. RMM achieved the best results on ESC-10 (12.00% ER), followed by FM which reached 13.33%. Second, we explored adding the mixup augmentation, used in MM and RMM, to DCT, MT, and FM. In almost all cases, mixup brought consistent gains. For instance, on GSC, FM reached 4.44% and 3.31% ER without and with mixup. Our PyTorch code will be made available upon paper acceptance at https:// github. com/ Labbe ti/ SSLH.

arxiv情報

著者 Léo Cances,Etienne Labbé,Thomas Pellegrini
発行日 2023-03-08 13:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク