Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

要約

この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコンペティションのコンテキスト内で、感情模倣強度 (EMI) 推定タスクの方法論を提案します。
私たちのアプローチは、包括的なポッドキャスト データセットで事前トレーニングされた Wav2Vec 2.0 フレームワークを活用して、言語要素とパラ言語要素の両方を含む幅広い音声特徴を抽出します。
当社では、個々の特徴をグローバル平均ベクトルと統合する融合技術を通じて特徴表現を強化し、グローバルなコンテキスト上の洞察を分析に導入します。
さらに、Wav2Vec 2.0 モデルの事前トレーニング済みの価性覚醒優位性 (VAD) モジュールを組み込みます。
私たちの融合では、オーディオ データの効率的な時間分析のために Long Short-Term Memory (LSTM) アーキテクチャが採用されています。
提供された音声データのみを利用する私たちのアプローチは、確立されたベースラインに比べて大幅な改善を示しています。

要約(オリジナル)

In this study, we propose a methodology for the Emotional Mimicry Intensity (EMI) Estimation task within the context of the 6th Workshop and Competition on Affective Behavior Analysis in-the-wild. Our approach leverages the Wav2Vec 2.0 framework, pre-trained on a comprehensive podcast dataset, to extract a broad range of audio features encompassing both linguistic and paralinguistic elements. We enhance feature representation through a fusion technique that integrates individual features with a global mean vector, introducing global contextual insights into our analysis. Additionally, we incorporate a pre-trained valence-arousal-dominance (VAD) module from the Wav2Vec 2.0 model. Our fusion employs a Long Short-Term Memory (LSTM) architecture for efficient temporal analysis of audio data. Utilizing only the provided audio data, our approach demonstrates significant improvements over the established baseline.

arxiv情報

著者 Tobias Hallmen,Fabian Deuser,Norbert Oswald,Elisabeth André
発行日 2024-03-22 10:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク