Leveraging Visemes for Better Visual Speech Representation and Lip Reading

要約

読唇術は、音声認識、人間とコンピュータの対話、セキュリティ システムなどに多くの応用が期待できる難しいタスクです。
しかし、既存の読唇システムは、ビデオ機能の制限により精度が低いことがよくあります。
この論文では、音声的に類似した唇の形状のグループである口形素を活用して、読唇のためのより識別力のある堅牢なビデオ特徴を抽出する新しいアプローチを提案します。
私たちは、単語レベルおよび文レベルの読唇術や、大規模なペルシア語コーパスである Arman-AV データセットを使用した視聴覚音声認識など、さまざまなタスクに対するアプローチを評価します。
私たちの実験結果は、これらすべてのタスクにおいて、口形素ベースのアプローチが常に最新の手法よりも優れていることを示しています。
提案された方法は、以前の最良の方法と比較して読唇単語誤り率 (WER) を 9.1% 削減します。

要約(オリジナル)

Lip reading is a challenging task that has many potential applications in speech recognition, human-computer interaction, and security systems. However, existing lip reading systems often suffer from low accuracy due to the limitations of video features. In this paper, we propose a novel approach that leverages visemes, which are groups of phonetically similar lip shapes, to extract more discriminative and robust video features for lip reading. We evaluate our approach on various tasks, including word-level and sentence-level lip reading, and audiovisual speech recognition using the Arman-AV dataset, a largescale Persian corpus. Our experimental results show that our viseme based approach consistently outperforms the state-of-theart methods in all these tasks. The proposed method reduces the lip-reading word error rate (WER) by 9.1% relative to the best previous method.

arxiv情報

著者 Javad Peymanfard,Vahid Saeedi,Mohammad Reza Mohammadi,Hossein Zeinali,Nasser Mozayani
発行日 2023-07-19 17:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク