AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation

要約

音声直接翻訳 (S2ST) は、音声をある言語から別の言語に変換することを目的としており、これまでに大きな進歩を遂げています。
最近の成功にもかかわらず、現在の S2ST モデルは依然として騒がしい環境では明らかな劣化に悩まされており、視覚的な音声 (つまり、唇や歯の動き) を翻訳できません。
この研究では、中間テキストに依存しない初のオーディオビジュアル音声認識 (AV-S2ST) 翻訳モデルである AV-TranSpeech を紹介します。
AV-TranSpeech は、オーディオ ストリームを視覚情報で補完してシステムの堅牢性を促進し、ディクテーションやアーカイブ フィルムのダビングなど、多くの実用的なアプリケーションを可能にします。
限られた並列 AV-S2ST データによるデータ不足を軽減するために、1) ラベルのない視聴覚データを使用した自己教師あり事前トレーニングを検討し、コンテキスト表現を学習します。2) 音声でトレーニングされた S2ST モデルを使用したクロスモーダル蒸留を導入します。
コーパスのみを使用することで、視覚データの要件をさらに軽減します。
2 つの言語ペアでの実験結果は、ノイズの種類に関係なく、AV-TranSpeech がすべての設定で音声のみのモデルよりも優れたパフォーマンスを発揮することを示しています。
低リソースの視聴覚データ (10 時間、30 時間) では、クロスモーダル蒸留により、ベースラインと比較して平均 7.6 BLEU の改善が得られます。
音声サンプルは https://AV-TranSpeech.github.io で入手できます。

要約(オリジナル)

Direct speech-to-speech translation (S2ST) aims to convert speech from one language into another, and has demonstrated significant progress to date. Despite the recent success, current S2ST models still suffer from distinct degradation in noisy environments and fail to translate visual speech (i.e., the movement of lips and teeth). In this work, we present AV-TranSpeech, the first audio-visual speech-to-speech (AV-S2ST) translation model without relying on intermediate text. AV-TranSpeech complements the audio stream with visual information to promote system robustness and opens up a host of practical applications: dictation or dubbing archival films. To mitigate the data scarcity with limited parallel AV-S2ST data, we 1) explore self-supervised pre-training with unlabeled audio-visual data to learn contextual representation, and 2) introduce cross-modal distillation with S2ST models trained on the audio-only corpus to further reduce the requirements of visual data. Experimental results on two language pairs demonstrate that AV-TranSpeech outperforms audio-only models under all settings regardless of the type of noise. With low-resource audio-visual data (10h, 30h), cross-modal distillation yields an improvement of 7.6 BLEU on average compared with baselines. Audio samples are available at https://AV-TranSpeech.github.io

arxiv情報

著者 Rongjie Huang,Huadai Liu,Xize Cheng,Yi Ren,Linjun Li,Zhenhui Ye,Jinzheng He,Lichao Zhang,Jinglin Liu,Xiang Yin,Zhou Zhao
発行日 2023-05-24 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク