要約
音声処理Universal Performance Benchmark(SuperB)は、さまざまな音声処理タスクでの自己学習学習(SSL)モデルのパフォーマンスをベンチマークするリーダーボードです。
ただし、素晴らしい評価では英語のスピーチを主に考慮しています。
このペーパーでは、143の言語(高資源から絶滅危ed種に及ぶ)をカバーし、自動音声認識と言語識別の両方を考慮した多言語の素晴らしい(ML-Superb)を紹介します。
SuperBの概念に従って、ML-Superbは冷凍SSL機能を利用し、浅いダウンストリームモデルを学習することにより、多言語タスクの簡単なフレームワークを採用しています。
SuperB Benchmarkと同様に、Speech SSLモデルはFBANK機能と比較してパフォーマンスを大幅に改善できることがわかります。
さらに、多言語モデルは、単一言語のカウンターパートよりも常に優れたパフォーマンスではないことがわかります。
ML-Superbは、将来の多言語代表研究のための整理されたデータセットと再現可能なトレーニングスクリプトを備えた課題としてリリースします。
要約(オリジナル)
Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.
arxiv情報
著者 | Jiatong Shi,Dan Berrebbi,William Chen,Ho-Lam Chung,En-Pei Hu,Wei Ping Huang,Xuankai Chang,Shang-Wen Li,Abdelrahman Mohamed,Hung-yi Lee,Shinji Watanabe |
発行日 | 2025-02-24 18:06:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google