Few-Shot Spoken Language Understanding via Joint Speech-Text Models

要約

テキストと共同で事前トレーニングされた音声表現モデルに関する最近の研究では、共有スペースで音声とテキストをエンコードすることによって音声表現を改善できる可能性が実証されました。
この論文では、このような共有表現を活用して、音声言語理解タスクにおける利用可能なデータが限られているという永続的な課題に対処します。
事前トレーニングされた音声テキスト モデルを採用することで、テキストに合わせて微調整されたモデルを音声テスト データに効果的に転送できることがわかりました。
わずか 1 時間のラベル付き音声データで、私たちが提案するアプローチは、10 時間で微調整された音声のみの事前トレーニング済みモデルを使用した以前の方法と比較して、音声言語理解タスク (特に感情分析と固有表現認識) で同等のパフォーマンスを達成します。
倍のデータ。
概念実証の研究に加えて、潜在的な表現も分析します。
音声テキスト モデルの最下位層は主にタスクに依存せず、音声とテキストの表現を共有スペースに配置しますが、最上位層はよりタスクに特化していることがわかりました。

要約(オリジナル)

Recent work on speech representation models jointly pre-trained with text has demonstrated the potential of improving speech representations by encoding speech and text in a shared space. In this paper, we leverage such shared representations to address the persistent challenge of limited data availability in spoken language understanding tasks. By employing a pre-trained speech-text model, we find that models fine-tuned on text can be effectively transferred to speech testing data. With as little as 1 hour of labeled speech data, our proposed approach achieves comparable performance on spoken language understanding tasks (specifically, sentiment analysis and named entity recognition) when compared to previous methods using speech-only pre-trained models fine-tuned on 10 times more data. Beyond the proof-of-concept study, we also analyze the latent representations. We find that the bottom layers of speech-text models are largely task-agnostic and align speech and text representations into a shared space, while the top layers are more task-specific.

arxiv情報

著者 Chung-Ming Chien,Mingjiamei Zhang,Ju-Chieh Chou,Karen Livescu
発行日 2023-10-09 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク