SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data

要約

本論文では、3つのマルチモーダル言語理解タスク、AV-ASR(視聴覚自動音声認識)とVST/VMT(視覚支援音声/機械翻訳)を実行できる統一モデル、SynesLMを紹介する。音声信号の視覚的手がかりとして唇の動きに焦点を当てた先行研究とは異なり、我々の研究では、物体や動作など、フレーム全体のより一般的な視覚情報を探索する。さらに、画像と音声データの相関を高めるために合成画像データを使用する。How2データセットに対してSynesLMのベンチマークを行い、我々のマルチタスクフレームワークを維持しながら、AV-ASRに特化した最先端の(SOTA)モデルと同等の性能を実証した。驚くべきことに、ゼロショットAV-ASRにおいて、SynesLMはVisSpeechデータセットのワードエラーレート(WER)を43.4%から39.4%に下げ、SOTA性能を達成した。さらに、VSTとVMTでの結果は、従来の結果を上回り、BLEUスコアはVSTの37.2から43.5へ、VMTの54.4から54.8へ向上した。

要約(オリジナル)

In this work, we present SynesLM, an unified model which can perform three multimodal language understanding tasks: audio-visual automatic speech recognition(AV-ASR) and visual-aided speech/machine translation(VST/VMT). Unlike previous research that focused on lip motion as visual cues for speech signals, our work explores more general visual information within entire frames, such as objects and actions. Additionally, we use synthetic image data to enhance the correlation between image and speech data. We benchmark SynesLM against the How2 dataset, demonstrating performance on par with state-of-the-art (SOTA) models dedicated to AV-ASR while maintaining our multitasking framework. Remarkably, for zero-shot AV-ASR, SynesLM achieved SOTA performance by lowering the Word Error Rate (WER) from 43.4% to 39.4% on the VisSpeech Dataset. Furthermore, our results in VST and VMT outperform the previous results, improving the BLEU score to 43.5 from 37.2 for VST, and to 54.8 from 54.4 for VMT.

arxiv情報

著者 Yichen Lu,Jiaqi Song,Xuankai Chang,Hengwei Bian,Soumi Maiti,Shinji Watanabe
発行日 2024-08-01 15:09:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, eess.AS パーマリンク