A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

要約

タイトル: 音声ビジュアルスピーチ表現学習のための多様なダイナミカル変分自己符号化器

要約:

– 本論文では、非教示的オーディオビジュアルスピーチ表現学習に適用される多様なダイナミックVAE(MDVAE)を提案する。
– 潜在空間は、モダリティごとに特定のものと共通のものを分離するように構造化され、共有される動的要素を解離するように設計されている。
– 静的な潜在変数も導入され、オーディオビジュアルスピーチシーケンス内で時間を超えて一定の情報を符号化する。
– モデルは、2つの段階で音声ビジュアル感情的話し方のデータセットで教示される。最初の段階では、時間モデリングせずに各モダリティに対して個別にベクトル量子化VAE(VQ-VAE)が学習される。第二段階は、量子化前のVQ-VAEの中間表現でMDVAEモデルを学習することで行われる。第二トレーニング段階で静的対動的およびモダリティ特異的対モダリティ共通情報の分解が行われる。
– MDVAEは、音声とビジュアル情報を効果的に潜在空間に組み合わせることができることが実験で示された。また、学習された静的なオーディオビジュアルスピーチ表現は、少数のラベルデータを使用して感情認識に使用でき、ユニモーダルベースラインおよびオーディオビジュアルトランスフォーマーアーキテクチャに基づく最新の教示モデルと比較して、より高い精度で認識できることも示された。

要約(オリジナル)

In this paper, we present a multimodal \textit{and} dynamical VAE (MDVAE) applied to unsupervised audio-visual speech representation learning. The latent space is structured to dissociate the latent dynamical factors that are shared between the modalities from those that are specific to each modality. A static latent variable is also introduced to encode the information that is constant over time within an audiovisual speech sequence. The model is trained in an unsupervised manner on an audiovisual emotional speech dataset, in two stages. In the first stage, a vector quantized VAE (VQ-VAE) is learned independently for each modality, without temporal modeling. The second stage consists in learning the MDVAE model on the intermediate representation of the VQ-VAEs before quantization. The disentanglement between static versus dynamical and modality-specific versus modality-common information occurs during this second training stage. Extensive experiments are conducted to investigate how audiovisual speech latent factors are encoded in the latent space of MDVAE. These experiments include manipulating audiovisual speech, audiovisual facial image denoising, and audiovisual speech emotion recognition. The results show that MDVAE effectively combines the audio and visual information in its latent space. They also show that the learned static representation of audiovisual speech can be used for emotion recognition with few labeled data, and with better accuracy compared with unimodal baselines and a state-of-the-art supervised model based on an audiovisual transformer architecture.

arxiv情報

著者 Samir Sadok,Simon Leglaive,Laurent Girin,Xavier Alameda-Pineda,Renaud Séguier
発行日 2023-05-05 14:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク