MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition

要約

マルチメディア通信は、人々の間のグローバルな相互作用を促進します。
しかし、言語の壁を克服するために、機械翻訳や音声音声翻訳などのクロスリンガル翻訳技術を研究者が模索しているにもかかわらず、ビジュアル スピーチに関するクロスリンガル研究はまだ不足しています。
この研究の欠如は主に、視覚的な音声と翻訳されたテキストのペアを含むデータセットがないことが原因です。
この論文では、 \textbf{A}udio-\textbf{V}isual \textbf{Mu}ltilingual \textbf{S}peech \textbf{T}translation の最初のデータセットである \textbf{AVMuST-TED} を紹介します。
\textbf{TED} トークから派生。
それにもかかわらず、ビジュアル スピーチはオーディオ スピーチほど区別がつかないため、ソース スピーチ音素からターゲット言語テキストへのマッピングを作成することは困難です。
この問題に対処するために、音声音声を利用して視覚音声タスクのトレーニングを正規化するクロスモダリティ自己学習フレームワークである MixSpeech を提案します。
クロスモダリティのギャップと知識伝達への影響をさらに最小限に抑えるために、必要に応じて混合比を調整するカリキュラム学習戦略とともに、オーディオとビジュアルのストリームを補間することによって作成される混合音声を採用することをお勧めします。
MixSpeech は、騒がしい環境での音声翻訳を強化し、AVMuST-TED の 4 つの言語の BLEU スコアを +1.4 から +4.2 向上させます。
さらに、CMLR (11.1\%)、LRS2 (25.5\%)、LRS3 (28.0\%) の読唇術で最先端のパフォーマンスを実現します。

要約(オリジナル)

Multi-media communications facilitate global interaction among people. However, despite researchers exploring cross-lingual translation techniques such as machine translation and audio speech translation to overcome language barriers, there is still a shortage of cross-lingual studies on visual speech. This lack of research is mainly due to the absence of datasets containing visual speech and translated text pairs. In this paper, we present \textbf{AVMuST-TED}, the first dataset for \textbf{A}udio-\textbf{V}isual \textbf{Mu}ltilingual \textbf{S}peech \textbf{T}ranslation, derived from \textbf{TED} talks. Nonetheless, visual speech is not as distinguishable as audio speech, making it difficult to develop a mapping from source speech phonemes to the target language text. To address this issue, we propose MixSpeech, a cross-modality self-learning framework that utilizes audio speech to regularize the training of visual speech tasks. To further minimize the cross-modality gap and its impact on knowledge transfer, we suggest adopting mixed speech, which is created by interpolating audio and visual streams, along with a curriculum learning strategy to adjust the mixing ratio as needed. MixSpeech enhances speech translation in noisy environments, improving BLEU scores for four languages on AVMuST-TED by +1.4 to +4.2. Moreover, it achieves state-of-the-art performance in lip reading on CMLR (11.1\%), LRS2 (25.5\%), and LRS3 (28.0\%).

arxiv情報

著者 Xize Cheng,Linjun Li,Tao Jin,Rongjie Huang,Wang Lin,Zehan Wang,Huangdai Liu,Ye Wang,Aoxiong Yin,Zhou Zhao
発行日 2023-03-09 14:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク