Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper

要約

この論文では、複数の言語、特にラベル付きデータの数が限られている低リソース言語向けの強力な視覚音声認識 (VSR) 方法を提案します。
他の言語から学習した知識を使用してターゲット言語の VSR パフォーマンスを向上させようとしたこれまでの方法とは異なり、人間の介入なしにさまざまな言語のトレーニング データ自体の量を増やすことができるかどうかを検討します。
この目的を達成するために、言語識別と音声ベースの音声認識の両方を実行できる Whisper モデルを採用します。
これは、必要な言語のデータをフィルタリングし、注釈のない多言語視聴覚データ プールからラベルを転写するのに役立ちます。
自動ラベルと人間による注釈付きラベルでトレーニングされた VSR モデルのパフォーマンスを比較することにより、人間による注釈を利用しなくても人間による注釈付きラベルと同様の VSR パフォーマンスを達成できることを示します。
自動ラベル付けプロセスを通じて、大規模なラベルなし多言語データベース VoxCeleb2 および AVSpeech にラベルを付け、VSR の低い 4 つのリソース言語、フランス語、イタリア語、スペイン語、ポルトガル語の 1,002 時間のデータを生成します。
自動ラベルを使用すると、mTEDx で 4 つの言語で新しい最先端のパフォーマンスを実現し、以前の方法を大幅に上回ります。
自動ラベルはオンラインで入手できます: https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages

要約(オリジナル)

This paper proposes a powerful Visual Speech Recognition (VSR) method for multiple languages, especially for low-resource languages that have a limited number of labeled data. Different from previous methods that tried to improve the VSR performance for the target language by using knowledge learned from other languages, we explore whether we can increase the amount of training data itself for the different languages without human intervention. To this end, we employ a Whisper model which can conduct both language identification and audio-based speech recognition. It serves to filter data of the desired languages and transcribe labels from the unannotated, multilingual audio-visual data pool. By comparing the performances of VSR models trained on automatic labels and the human-annotated labels, we show that we can achieve similar VSR performance to that of human-annotated labels even without utilizing human annotations. Through the automated labeling process, we label large-scale unlabeled multilingual databases, VoxCeleb2 and AVSpeech, producing 1,002 hours of data for four low VSR resource languages, French, Italian, Spanish, and Portuguese. With the automatic labels, we achieve new state-of-the-art performance on mTEDx in four languages, significantly surpassing the previous methods. The automatic labels are available online: https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages

arxiv情報

著者 Jeong Hun Yeo,Minsu Kim,Shinji Watanabe,Yong Man Ro
発行日 2024-01-12 07:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.AS パーマリンク