要約
音声処理ユニバーサル パフォーマンス ベンチマーク (SUPERB) は、さまざまな音声処理タスクにおける自己教師あり学習 (SSL) モデルのパフォーマンスをベンチマークするリーダーボードです。
ただし、SUPERBは英語スピーチを主に評価の対象としています。
この論文では、143 言語 (高資源から絶滅危惧言語まで) をカバーし、自動音声認識と言語識別の両方を考慮した多言語 SUPERB (ML-SUPERB) について説明します。
SUPERB の概念に従って、ML-SUPERB は凍結された SSL 機能を利用し、浅いダウンストリーム モデルを学習することで多言語タスク用のシンプルなフレームワークを採用します。
SUPERB ベンチマークと同様に、音声 SSL モデルは FBANK 機能と比較してパフォーマンスを大幅に向上させることができます。
さらに、多言語モデルのパフォーマンスが必ずしも単言語モデルよりも優れているわけではないことがわかりました。
私たちは、将来の多言語表現研究に向けて、整理されたデータセットと再現可能なトレーニング スクリプトを備えた課題として ML-SUPERB をリリースします。
要約(オリジナル)
Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.
arxiv情報
著者 | Jiatong Shi,Dan Berrebbi,William Chen,Ho-Lam Chung,En-Pei Hu,Wei Ping Huang,Xuankai Chang,Shang-Wen Li,Abdelrahman Mohamed,Hung-yi Lee,Shinji Watanabe |
発行日 | 2023-08-11 17:39:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google