要約
史上初の音声感情認識 (SER) チャレンジである INTERSPEECH 2009 Emotion Challenge を再検討し、それ以降の SER 研究の大きな進歩を代表する一連の深層学習モデルを評価します。
まず、固定されたハイパーパラメーターのセットを使用して各モデルをトレーニングし、グリッド検索を使用してその初期設定で最もパフォーマンスの高いモデルをさらに微調整します。
結果は常に公式テスト セットで報告され、早期停止のみに使用される別の検証セットが使用されます。
ほとんどのモデルのスコアは公式ベースライン以下またはそれに近いものですが、ハイパーパラメータ調整後は元のチャレンジ勝者をわずかに上回っています。
私たちの研究は、最近の進歩にもかかわらず、FAU-AIBO が依然として非常に困難なベンチマークであることを示しています。
興味深い帰結は、新しい方法が常に古い方法よりも優れているわけではなく、SER の「解決」に向けた進歩が必ずしも単調ではないことを示しています。
要約(オリジナル)
We revisit the INTERSPEECH 2009 Emotion Challenge — the first ever speech emotion recognition (SER) challenge — and evaluate a series of deep learning models that are representative of the major advances in SER research in the time since then. We start by training each model using a fixed set of hyperparameters, and further fine-tune the best-performing models of that initial setup with a grid search. Results are always reported on the official test set with a separate validation set only used for early stopping. Most models score below or close to the official baseline, while they marginally outperform the original challenge winners after hyperparameter tuning. Our work illustrates that, despite recent progress, FAU-AIBO remains a very challenging benchmark. An interesting corollary is that newer methods do not consistently outperform older ones, showing that progress towards `solving’ SER is not necessarily monotonic.
arxiv情報
著者 | Andreas Triantafyllopoulos,Anton Batliner,Simon Rampp,Manuel Milling,Björn Schuller |
発行日 | 2024-06-10 15:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google