要約
エンドツーエンドの音声言語理解 (SLU) は、テキストと音声に関する現在の大規模な事前トレーニング済み言語モデルでも、特に多言語の場合には依然としてとらえどころがありません。
機械翻訳は、モデルが入力発話の高レベルのセマンティクスと異なる言語間の関連性をキャプチャできるため、テキストに対する強力な事前トレーニング目標として確立されています。これは、低レベルの音響フレームで機能する音声モデルに望ましいことです。
特に言語間 SLU のタスクを動機として、音声翻訳 (ST) のタスクが、言語内および言語間シナリオの両方でエンドツーエンド SLU の音声モデルを事前トレーニングする優れた手段であることを示します。
ST を導入することにより、当社のモデルは、SLURP、MINDS-14、および NMSQA ベンチマークを使用した、単言語および多言語の意図分類と口頭質問応答において、ベースラインを超えるパフォーマンスを達成しました。
私たちの手法の有効性を検証するために、音声の要約と英語からフランス語またはスペイン語への低リソース/ゼロショット転送用に、合成ソースと実際のソースの両方から新しいベンチマーク データセットも作成します。
さらに、おそらくベイジアン転送正則化子を使用して、下流のパフォーマンスを向上させるために ST 事前トレーニング タスクの知識を保存することの価値を示します。
要約(オリジナル)
End-to-end spoken language understanding (SLU) remains elusive even with current large pretrained language models on text and speech, especially in multilingual cases. Machine translation has been established as a powerful pretraining objective on text as it enables the model to capture high-level semantics of the input utterance and associations between different languages, which is desired for speech models that work on lower-level acoustic frames. Motivated particularly by the task of cross-lingual SLU, we demonstrate that the task of speech translation (ST) is a good means of pretraining speech models for end-to-end SLU on both intra- and cross-lingual scenarios. By introducing ST, our models reach higher performance over baselines on monolingual and multilingual intent classification as well as spoken question answering using SLURP, MINDS-14, and NMSQA benchmarks. To verify the effectiveness of our methods, we also create new benchmark datasets from both synthetic and real sources, for speech summarization and low-resource/zero-shot transfer from English to French or Spanish. We further show the value of preserving knowledge for the ST pretraining task for better downstream performance, possibly using Bayesian transfer regularizers.
arxiv情報
著者 | Mutian He,Philip N. Garner |
発行日 | 2023-10-17 14:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google