Speech Emotion Recognition under Resource Constraints with Data Distillation

要約

音声感情認識 (SER) は、人間とコンピューターの対話において重要な役割を果たします。
モノのインターネット (IoT) におけるエッジ デバイスの出現により、メモリと計算リソースの制約により、複雑な深層学習モデルを構築する際に課題が生じています。
さらに、感情的な音声データには個人情報が含まれることが多く、SER モデルの展開中にプライバシー漏洩の懸念が生じます。
これらの課題に対処するために、私たちは、合成された、より小さい、蒸留されたデータセットを使用して、IoT アプリケーションにおける SER モデルの効率的な開発を促進するデータ蒸留フレームワークを提案します。
私たちの実験は、蒸留されたデータセットを効果的に利用して固定初期化で SER モデルをトレーニングできることを示し、元の完全な感情音声データセットを使用して開発されたものと同等のパフォーマンスを達成できます。

要約(オリジナル)

Speech emotion recognition (SER) plays a crucial role in human-computer interaction. The emergence of edge devices in the Internet of Things (IoT) presents challenges in constructing intricate deep learning models due to constraints in memory and computational resources. Moreover, emotional speech data often contains private information, raising concerns about privacy leakage during the deployment of SER models. To address these challenges, we propose a data distillation framework to facilitate efficient development of SER models in IoT applications using a synthesised, smaller, and distilled dataset. Our experiments demonstrate that the distilled dataset can be effectively utilised to train SER models with fixed initialisation, achieving performances comparable to those developed using the original full emotional speech dataset.

arxiv情報

著者 Yi Chang,Zhao Ren,Zhonghao Zhao,Thanh Tam Nguyen,Kun Qian,Tanja Schultz,Björn W. Schuller
発行日 2024-06-21 13:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク