SpeechTaxi: On Multilingual Semantic Speech Classification

要約

多言語音声符号化および文字起こしにおける最近の進歩により、意味論的音声分類に対する最も効果的なアプローチについて疑問が生じています。
具体的には、(1) 最先端の多言語音声エンコーダ (MSE) を微調整することで得られるエンドツーエンド (E2E) 分類器は、(2) 音声がエンコーダで使用されるカスケード (CA) のパフォーマンスと同等またはそれを超えることができるでしょうか。
まずテキストに転写され、分類はテキストベースの分類子に委任されます。
これに答えるために、まず SpeechTaxi を構築します。これは、28 の多様な言語をカバーする、聖書の一節の意味論的な音声分類のための 80 時間の多言語データセットです。
次に、SpeechTaxi を活用して、単一言語の意味論的音声分類および言語間の転送において E2E と CA を比較する幅広い実験を実施します。
MSE に基づく E2E は、単一言語設定、つまり言語内データでトレーニングされた場合、CA よりも優れたパフォーマンスを発揮することがわかりました。
しかし、MSE は言語を越えた移転能力が低いようで、(1) トレーニングでは見られない言語へのゼロショット移転、および (2) 多言語トレーニング、つまり複数の言語での共同トレーニングの両方において、E2E は CA に大幅に遅れをとっています。
最後に、言語に依存しない中間表現としてローマ字テキストへの転写に基づく新しい CA アプローチを考案し、それがネイティブ ASR サポートのない言語に対する堅牢なソリューションとなることを示します。
SpeechTaxi データセットは、https://huggingface.co/datasets/LennartKeller/SpeechTaxi/ で公開されています。

要約(オリジナル)

Recent advancements in multilingual speech encoding as well as transcription raise the question of the most effective approach to semantic speech classification. Concretely, can (1) end-to-end (E2E) classifiers obtained by fine-tuning state-of-the-art multilingual speech encoders (MSEs) match or surpass the performance of (2) cascading (CA), where speech is first transcribed into text and classification is delegated to a text-based classifier. To answer this, we first construct SpeechTaxi, an 80-hour multilingual dataset for semantic speech classification of Bible verses, covering 28 diverse languages. We then leverage SpeechTaxi to conduct a wide range of experiments comparing E2E and CA in monolingual semantic speech classification as well as in cross-lingual transfer. We find that E2E based on MSEs outperforms CA in monolingual setups, i.e., when trained on in-language data. However, MSEs seem to have poor cross-lingual transfer abilities, with E2E substantially lagging CA both in (1) zero-shot transfer to languages unseen in training and (2) multilingual training, i.e., joint training on multiple languages. Finally, we devise a novel CA approach based on transcription to Romanized text as a language-agnostic intermediate representation and show that it represents a robust solution for languages without native ASR support. Our SpeechTaxi dataset is publicly available at: https://huggingface.co/ datasets/LennartKeller/SpeechTaxi/.

arxiv情報

著者 Lennart Keller,Goran Glavaš
発行日 2024-09-10 09:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク