A multimodal dynamical variational autoencoder for audiovisual speech representation learning

要約

この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 VAE (MDVAE) を紹介します。
潜在空間は、モダリティ間で共有される潜在的な力学的要因を、各モダリティに固有のものから分離するように構造化されています。
静的潜在変数も、オーディオビジュアル音声シーケンス内で時間の経過とともに一定である情報をエンコードするために導入されます。
このモデルは、視聴覚感情音声データセットに対して教師なしの方法で 2 段階でトレーニングされます。
第 1 段階では、ベクトル量子化 VAE (VQ-VAE) が、時間モデリングを行わずに、モダリティごとに独立して学習されます。
第 2 段階では、量子化の前に VQ-VAE の中間表現で MDVAE モデルを学習します。
静的情報と動的情報、モダリティ固有情報とモダリティ共通情報の間のもつれの解消は、この第 2 トレーニング段階で発生します。
視聴覚音声の潜在要素が MDVAE の潜在空間でどのようにエンコードされるかを調査するために、広範な実験が行われています。
これらの実験には、視聴覚音声の操作、視聴覚顔画像のノイズ除去、および視聴覚音声感情認識が含まれます。
結果は、MDVAE が潜在空間で音声情報と視覚情報を効果的に結合していることを示しています。
また、学習された視聴覚音声の静的表現は、少数のラベル付きデータで感情認識に使用でき、単峰性ベースラインや視聴覚変換アーキテクチャに基づく最先端の教師付きモデルと比較して精度が高いことも示しています。

要約(オリジナル)

In this paper, we present a multimodal and dynamical VAE (MDVAE) applied to unsupervised audio-visual speech representation learning. The latent space is structured to dissociate the latent dynamical factors that are shared between the modalities from those that are specific to each modality. A static latent variable is also introduced to encode the information that is constant over time within an audiovisual speech sequence. The model is trained in an unsupervised manner on an audiovisual emotional speech dataset, in two stages. In the first stage, a vector quantized VAE (VQ-VAE) is learned independently for each modality, without temporal modeling. The second stage consists in learning the MDVAE model on the intermediate representation of the VQ-VAEs before quantization. The disentanglement between static versus dynamical and modality-specific versus modality-common information occurs during this second training stage. Extensive experiments are conducted to investigate how audiovisual speech latent factors are encoded in the latent space of MDVAE. These experiments include manipulating audiovisual speech, audiovisual facial image denoising, and audiovisual speech emotion recognition. The results show that MDVAE effectively combines the audio and visual information in its latent space. They also show that the learned static representation of audiovisual speech can be used for emotion recognition with few labeled data, and with better accuracy compared with unimodal baselines and a state-of-the-art supervised model based on an audiovisual transformer architecture.

arxiv情報

著者 Samir Sadok,Simon Leglaive,Laurent Girin,Xavier Alameda-Pineda,Renaud Séguier
発行日 2024-02-20 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク