Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping

要約

視覚音声認識 (VSR) は、人間の専門家であっても、ビデオ シーケンスに対するより深い推論を必要とするため、一般的な認識タスクとは異なります。
最近の VSR の進歩にも関わらず、現在のアプローチはラベル付きデータに依存して、ターゲットの音声を予測するモデルを完全にトレーニングまたは微調整しています。
これにより、トレーニング セットをはるかに超えて一般化する能力が妨げられ、分布外の困難なシナリオではパフォーマンスの低下につながります。
補助損失や複雑なトレーニング手順やアーキテクチャを伴う以前の研究とは異なり、我々は、以前のモデルの学習に基づいた Lip2Vec という名前の単純なアプローチを提案します。
堅牢な視覚音声エンコーダが与えられると、このネットワークは、唇シーケンスのエンコードされた潜在表現を、音声ペアからの対応する潜在表現にマッピングします。これは、効果的なテキスト復号化にとって十分に不変です。
生成された音声表現は、既製の音声音声認識 (ASR) モデルを使用してテキストにデコードされます。
提案されたモデルは、26 WER を達成する LRS3 データセット上の完全教師あり学習手法と比べて優れています。
SoTA のアプローチとは異なり、私たちのモデルは VoxCeleb テスト セットで妥当なパフォーマンスを維持します。
VSR を ASR タスクとして再プログラミングすることで、両者のパフォーマンスの差が縮まり、読唇術をより柔軟に定式化する道が開かれると考えています。

要約(オリジナル)

Visual Speech Recognition (VSR) differs from the common perception tasks as it requires deeper reasoning over the video sequence, even by human experts. Despite the recent advances in VSR, current approaches rely on labeled data to fully train or finetune their models predicting the target speech. This hinders their ability to generalize well beyond the training set and leads to performance degeneration under out-of-distribution challenging scenarios. Unlike previous works that involve auxiliary losses or complex training procedures and architectures, we propose a simple approach, named Lip2Vec that is based on learning a prior model. Given a robust visual speech encoder, this network maps the encoded latent representations of the lip sequence to their corresponding latents from the audio pair, which are sufficiently invariant for effective text decoding. The generated audio representation is then decoded to text using an off-the-shelf Audio Speech Recognition (ASR) model. The proposed model compares favorably with fully-supervised learning methods on the LRS3 dataset achieving 26 WER. Unlike SoTA approaches, our model keeps a reasonable performance on the VoxCeleb test set. We believe that reprogramming the VSR as an ASR task narrows the performance gap between the two and paves the way for more flexible formulations of lip reading.

arxiv情報

著者 Yasser Abdelaziz Dahou Djilali,Sanath Narayan,Haithem Boussaid,Ebtessam Almazrouei,Merouane Debbah
発行日 2023-08-11 12:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク