On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

要約

Open Whisper-style Speech Model (OWSM) シリーズは、高度な音声テキスト変換 (S2T) 基盤モデルの構築において完全な透明性を実現するために導入されました。
この目的を達成するために、OWSM モデルは、さまざまな点で異種である 25 の公共音声データセットでトレーニングされます。
この調査では、OWSM v3.2を導入することでOWSMシリーズを進化させます。OWSM v3.2は、このデータの異質性の影響を調査して対処することで以前のモデルを改善します。
私たちの研究は各データセットの詳細な分析から始まり、そこから 2 つの重要な戦略を導き出します。それは、データ品質を向上させるためのプロキシ タスクによるデータ フィルタリングと、オープンな大規模言語モデル (LLM) を使用した句読点とトゥルー ケーシングの組み込みです。
他の構成はすべて同じままで、OWSM v3.2はOWSM v3.1ベースラインよりもパフォーマンスが向上し、使用するトレーニング・データは15%削減されます。

要約(オリジナル)

The Open Whisper-style Speech Model (OWSM) series was introduced to achieve full transparency in building advanced speech-to-text (S2T) foundation models. To this end, OWSM models are trained on 25 public speech datasets, which are heterogeneous in multiple ways. In this study, we advance the OWSM series by introducing OWSM v3.2, which improves on prior models by investigating and addressing the impacts of this data heterogeneity. Our study begins with a detailed analysis of each dataset, from which we derive two key strategies: data filtering with proxy task to enhance data quality, and the incorporation of punctuation and true-casing using an open large language model (LLM). With all other configurations staying the same, OWSM v3.2 improves performance over the OWSM v3.1 baseline while using 15% less training data.

arxiv情報

著者 Jinchuan Tian,Yifan Peng,William Chen,Kwanghee Choi,Karen Livescu,Shinji Watanabe
発行日 2024-06-13 16:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク