A Large-Scale Evaluation of Speech Foundation Models

要約

基盤モデル パラダイムは、共有基盤モデルを活用して、さまざまなタスクに対して最先端 (SOTA) パフォーマンスを実現し、ダウンストリーム固有のモデリングとデータ アノテーションを最小限に抑えます。
このアプローチは、自然言語処理 (NLP) の分野で重要であることが証明されています。
しかし、音声処理コミュニティには、体系的にパラダイムを探求するための同様の仕組みがありません。
この研究では、音声処理のユニバーサル パフォーマンス ベンチマーク (SUPERB) を確立して、音声のパラダイムの有効性を研究します。
我々は、凍結された基礎モデルとその後にタスクに特化した軽量予測ヘッドを使用して、SUPERB の音声処理タスクに対処するための統合マルチタスク フレームワークを提案します。
私たちの結果とコミュニティからの提出物を組み合わせることで、基礎モデルのパラダイムがスピーチに有望であること、および最もパフォーマンスの高い基礎モデルがほとんどの SUPERB タスクにわたって競合する一般化可能性を示すため、私たちのマルチタスク フレームワークがシンプルでありながら効果的であることを検証します。
再現性と拡張性を確保するために、決定論的なベンチマークを可能にし、オンライン リーダーボードを介した結果の共有を可能にし、コミュニティ主導のベンチマーク データベースを介してコラボレーションを促進して新しい開発サイクルをサポートする、長期的に維持されるプラットフォームを開発しました。
最後に、モデル内のタスク間の情報フロー、加重合計ベンチマーク プロトコルの正確性、ベンチマークの統計的有意性と堅牢性など、SUPERB および音声基礎モデルを深く理解するために一連の分析を実行します。

要約(オリジナル)

The foundation model paradigm leverages a shared foundation model to achieve state-of-the-art (SOTA) performance for various tasks, requiring minimal downstream-specific modeling and data annotation. This approach has proven crucial in the field of Natural Language Processing (NLP). However, the speech processing community lacks a similar setup to explore the paradigm systematically. In this work, we establish the Speech processing Universal PERformance Benchmark (SUPERB) to study the effectiveness of the paradigm for speech. We propose a unified multi-tasking framework to address speech processing tasks in SUPERB using a frozen foundation model followed by task-specialized, lightweight prediction heads. Combining our results with community submissions, we verify that the foundation model paradigm is promising for speech, and our multi-tasking framework is simple yet effective, as the best-performing foundation model shows competitive generalizability across most SUPERB tasks. For reproducibility and extensibility, we have developed a long-term maintained platform that enables deterministic benchmarking, allows for result sharing via an online leaderboard, and promotes collaboration through a community-driven benchmark database to support new development cycles. Finally, we conduct a series of analyses to offer an in-depth understanding of SUPERB and speech foundation models, including information flows across tasks inside the models, the correctness of the weighted-sum benchmarking protocol and the statistical significance and robustness of the benchmark.

arxiv情報

著者 Shu-wen Yang,Heng-Jui Chang,Zili Huang,Andy T. Liu,Cheng-I Lai,Haibin Wu,Jiatong Shi,Xuankai Chang,Hsiang-Sheng Tsai,Wen-Chin Huang,Tzu-hsun Feng,Po-Han Chi,Yist Y. Lin,Yung-Sung Chuang,Tzu-Hsien Huang,Wei-Cheng Tseng,Kushal Lakhotia,Shang-Wen Li,Abdelrahman Mohamed,Shinji Watanabe,Hung-yi Lee
発行日 2024-04-15 00:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS, eess.SP パーマリンク