Multimodal Transformer Distillation for Audio-Visual Synchronization

要約

視聴覚同期は、ビデオ内の口の動きと音声が同期しているかどうかを判断することを目的としています。
VocaLiST は、マルチモーダル トランスフォーマーを組み込んで視聴覚相互作用情報をモデル化することにより、最先端のパフォーマンスに到達します。
ただし、大量のコンピューティング リソースが必要なため、実際のアプリケーションには実用的ではありません。
この論文では、MTDVocaLiST モデルを提案しました。このモデルは、提案されたマルチモーダル変圧器蒸留 (MTD) 損失によってトレーニングされます。
MTD 損失により、MTDVocaLiST モデルは、VocaLiST のトランスフォーマーにおける相互注意の分布と値の関係を深く模倣することができます。
提案された方法は、2 つの側面で効果的です。蒸留方法の観点から、MTD 損失は他の強力な蒸留ベースラインよりも優れています。
抽出されたモデルのパフォーマンスの観点から: 1) MTDVocaLiST は、同様のサイズの SOTA モデル、SyncNet、および PM モデルよりも 15.69% および 3.39% 優れています。
2) MTDVocaLiST は、VocaLiST のモデル サイズを 83.52% 縮小しますが、同様のパフォーマンスを維持します。

要約(オリジナル)

Audio-visual synchronization aims to determine whether the mouth movements and speech in the video are synchronized. VocaLiST reaches state-of-the-art performance by incorporating multimodal Transformers to model audio-visual interact information. However, it requires high computing resources, making it impractical for real-world applications. This paper proposed an MTDVocaLiST model, which is trained by our proposed multimodal Transformer distillation (MTD) loss. MTD loss enables MTDVocaLiST model to deeply mimic the cross-attention distribution and value-relation in the Transformer of VocaLiST. Our proposed method is effective in two aspects: From the distillation method perspective, MTD loss outperforms other strong distillation baselines. From the distilled model’s performance perspective: 1) MTDVocaLiST outperforms similar-size SOTA models, SyncNet, and PM models by 15.69% and 3.39%; 2) MTDVocaLiST reduces the model size of VocaLiST by 83.52%, yet still maintaining similar performance.

arxiv情報

著者 Xuanjun Chen,Haibin Wu,Chung-Che Wang,Hung-yi Lee,Jyh-Shing Roger Jang
発行日 2022-10-27 15:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.SD, eess.AS パーマリンク