On the Evaluation of Speech Foundation Models for Spoken Language Understanding

要約

音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声に関する分類タスクとシーケンス生成タスクの両方を含む、複雑な音声言語理解 (SLU) タスクのオープン リソースとベンチマークのニーズに対処するために、最近導入されました。
ベンチマークは、これらの SLU タスクに事前トレーニングされた音声基礎モデル (SFM) を使用することで暫定的な成功を実証しました。
ただし、コミュニティには、さまざまな SFM の比較有用性についての詳細な理解がまだ不足しています。
これに触発されて、どの SFM がこれらの複雑な SLU タスクに最もメリットをもたらすのか、また、これらの SFM を組み込むための最も効果的なアプローチは何なのか、と考えます。
これに答えるために、いくつかの評価プロトコルを使用して、複数の教師ありおよび自己教師あり SFM の広範な評価を実行します。(i) 軽量の予測ヘッドを備えた凍結 SFM、(ii) 複雑な予測ヘッドを備えた凍結 SFM、および (iii) 微細な予測ヘッドを備えた凍結 SFM
軽量予測ヘッドを備えた調整された SFM。
教師あり SFM は、より多くの音声認識データ (ラベル付き) で事前トレーニングされていますが、常に自己教師あり SFM よりも優れたパフォーマンスを発揮するとは限りません。
後者は、特に SLUE でのシーケンス生成タスクにおいて、教師あり SFM と少なくとも同等、場合によってはそれよりも優れたパフォーマンスを発揮する傾向があります。
SFM を組み込む普遍的に最適な方法はありませんが、複雑な予測ヘッドは、推論時間は長くなりますが、ほとんどのタスクで最高のパフォーマンスを提供します。
これらのタスクとモデリング戦略用に、オープンソースのツールキットとパフォーマンス リーダーボードである SLUE-PERB も紹介します。

要約(オリジナル)

The Spoken Language Understanding Evaluation (SLUE) suite of benchmark tasks was recently introduced to address the need for open resources and benchmarking of complex spoken language understanding (SLU) tasks, including both classification and sequence generation tasks, on natural speech. The benchmark has demonstrated preliminary success in using pre-trained speech foundation models (SFM) for these SLU tasks. However, the community still lacks a fine-grained understanding of the comparative utility of different SFMs. Inspired by this, we ask: which SFMs offer the most benefits for these complex SLU tasks, and what is the most effective approach for incorporating these SFMs? To answer this, we perform an extensive evaluation of multiple supervised and self-supervised SFMs using several evaluation protocols: (i) frozen SFMs with a lightweight prediction head, (ii) frozen SFMs with a complex prediction head, and (iii) fine-tuned SFMs with a lightweight prediction head. Although the supervised SFMs are pre-trained on much more speech recognition data (with labels), they do not always outperform self-supervised SFMs; the latter tend to perform at least as well as, and sometimes better than, supervised SFMs, especially on the sequence generation tasks in SLUE. While there is no universally optimal way of incorporating SFMs, the complex prediction head gives the best performance for most tasks, although it increases the inference time. We also introduce an open-source toolkit and performance leaderboard, SLUE-PERB, for these tasks and modeling strategies.

arxiv情報

著者 Siddhant Arora,Ankita Pasad,Chung-Ming Chien,Jionghao Han,Roshan Sharma,Jee-weon Jung,Hira Dhamyal,William Chen,Suwon Shon,Hung-yi Lee,Karen Livescu,Shinji Watanabe
発行日 2024-06-14 14:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク