Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection

要約

音声感情認識 (SER) は、人間とコンピューターの自然な対話が可能な汎用 AI エージェントを開発する上で重要なコンポーネントです。
ただし、英語と中国語以外の言語でラベル付けされたデータが不足しているため、堅牢な多言語 SER システムを構築することは依然として困難です。
この論文では、高リソース言語のデータを活用することで、低 SER リソース言語の SER パフォーマンスを向上させるアプローチを提案します。
具体的には、表現力豊かな Speech-to-Speech 翻訳 (S2ST) と新しいブートストラップ データ選択パイプラインを組み合わせて、ターゲット言語でラベル付きデータを生成します。
広範な実験により、私たちの方法が効果的であり、さまざまな上流モデルや言語にわたって一般化可能であることが実証されています。
私たちの結果は、このアプローチがよりスケーラブルで堅牢な多言語 SER システムの開発を促進できることを示唆しています。

要約(オリジナル)

Speech Emotion Recognition (SER) is a crucial component in developing general-purpose AI agents capable of natural human-computer interaction. However, building robust multilingual SER systems remains challenging due to the scarcity of labeled data in languages other than English and Chinese. In this paper, we propose an approach to enhance SER performance in low SER resource languages by leveraging data from high-resource languages. Specifically, we employ expressive Speech-to-Speech translation (S2ST) combined with a novel bootstrapping data selection pipeline to generate labeled data in the target language. Extensive experiments demonstrate that our method is both effective and generalizable across different upstream models and languages. Our results suggest that this approach can facilitate the development of more scalable and robust multilingual SER systems.

arxiv情報

著者 Hsi-Che Lin,Yi-Cheng Lin,Huang-Cheng Chou,Hung-yi Lee
発行日 2025-01-07 14:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク