SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks

要約

音声言語理解 (SLU) タスクは、音声研究コミュニティで何十年も研究されてきましたが、音声や話者認識などの下位レベルのタスクほど注目されていませんでした。
特に、SLU タスクのベンチマークはそれほど多くなく、既存のベンチマークの多くは、すべての研究者が自由に利用できるわけではないデータを使用しています。
最近の取り組みでは、いくつかのタスクに対してそのようなベンチマーク データセットを導入する取り組みが始まりました。
この作業では、自由に利用できる音声データに基づいたいくつかの新しい注釈付き SLU ベンチマーク タスクを導入します。これは、既存のベンチマークを補完し、SLU 評価環境のギャップに対処します。
私たちは 4 つのタスクに貢献します。質問応答と要約には、より長い音声シーケンスに対する推論が含まれます。
固有表現の位置特定は、信号内の対象コンテンツの位置を特定するという音声固有のタスクに対処します。
対話行為分類は、特定の音声発話の機能を識別します。
私たちは、音声言語理解評価 (SLUE) ベンチマーク スイートの青写真に従います。
事前トレーニングされた音声表現の成功を活用する SLU モデルの開発を促進するために、各タスクに対して (i) 比較的小さな微調整セットの注釈、(ii) 注釈付きの開発セットとテスト セット、および
(iii) 再現性と比較を容易にするベースライン モデル。
この作業では、データ収集と注釈の詳細、およびベースライン モデルのパフォーマンスを示します。
また、20 を超える最先端の音声認識モデルを使用して、パイプライン モデル (音声認識エンジン + テキスト モデル) のパフォーマンスと音声認識精度の感度分析も実行します。

要約(オリジナル)

Spoken language understanding (SLU) tasks have been studied for many decades in the speech research community, but have not received as much attention as lower-level tasks like speech and speaker recognition. In particular, there are not nearly as many SLU task benchmarks, and many of the existing ones use data that is not freely available to all researchers. Recent work has begun to introduce such benchmark datasets for several tasks. In this work, we introduce several new annotated SLU benchmark tasks based on freely available speech data, which complement existing benchmarks and address gaps in the SLU evaluation landscape. We contribute four tasks: question answering and summarization involve inference over longer speech sequences; named entity localization addresses the speech-specific task of locating the targeted content in the signal; dialog act classification identifies the function of a given speech utterance. We follow the blueprint of the Spoken Language Understanding Evaluation (SLUE) benchmark suite. In order to facilitate the development of SLU models that leverage the success of pre-trained speech representations, we will be publishing for each task (i) annotations for a relatively small fine-tuning set, (ii) annotated development and test sets, and (iii) baseline models for easy reproducibility and comparisons. In this work, we present the details of data collection and annotation and the performance of the baseline models. We also perform sensitivity analysis of pipeline models’ performance (speech recognizer + text model) to the speech recognition accuracy, using more than 20 state-of-the-art speech recognition models.

arxiv情報

著者 Suwon Shon,Siddhant Arora,Chyi-Jiunn Lin,Ankita Pasad,Felix Wu,Roshan Sharma,Wei-Lun Wu,Hung-Yi Lee,Karen Livescu,Shinji Watanabe
発行日 2023-06-15 22:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク