要約
音声感情認識 (SER) は、人間とコンピューターの対話における重要な研究トピックです。
既存の作品は主に人間の専門知識に頼ってモデルを設計しています。
成功にもかかわらず、異なるデータセットには異なる構造とハイパーパラメータが必要になることがよくあります。
各データセットに最適なモデルを検索するには、時間と労力がかかります。
この問題に対処するために、\enquote{EmotionNAS} と呼ばれる 2 ストリーム ニューラル アーキテクチャ検索 (NAS) ベースのフレームワークを提案します。
具体的には、2 つのストリームの特徴 (つまり、手作りの特徴と深い特徴) を入力として取得し、続いて NAS を使用して各ストリームの最適な構造を検索します。
さらに、効率的な情報補足モジュールを通じて、さまざまなストリームに補足情報を組み込みます。
実験結果は、私たちの方法が既存の手動設計モデルや NAS ベースのモデルを上回り、新しい最先端の記録を樹立することを示しています。
要約(オリジナル)
Speech emotion recognition (SER) is an important research topic in human-computer interaction. Existing works mainly rely on human expertise to design models. Despite their success, different datasets often require distinct structures and hyperparameters. Searching for an optimal model for each dataset is time-consuming and labor-intensive. To address this problem, we propose a two-stream neural architecture search (NAS) based framework, called \enquote{EmotionNAS}. Specifically, we take two-stream features (i.e., handcrafted and deep features) as the inputs, followed by NAS to search for the optimal structure for each stream. Furthermore, we incorporate complementary information in different streams through an efficient information supplement module. Experimental results demonstrate that our method outperforms existing manually-designed and NAS-based models, setting the new state-of-the-art record.
arxiv情報
著者 | Haiyang Sun,Zheng Lian,Bin Liu,Ying Li,Licai Sun,Cong Cai,Jianhua Tao,Meng Wang,Yuan Cheng |
発行日 | 2023-06-09 14:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google