要約
聴覚音声認識、視覚音声認識、視聴覚音声認識(それぞれASR、VSR、AVSR)の研究は、従来、それぞれ独立して行われてきた。最近の自己教師研究でも、2つまたは3つのタスクを同時に扱うと、別々のモデルが得られる傾向があり、メモリ要件と冗長性が増大する推論パイプラインがばらばらになる。本稿では、これらのシステムのための統一された学習戦略を提案する。3つのタスク全てに対して単一のモデルを学習することで、VSRとAVSRの性能が向上することを実証し、ゼロから学習する場合の典型的な最適化の課題を克服する。さらに、ラベル付けされていないサンプルをより効果的に活用するために、貪欲な擬似ラベル付けアプローチを導入し、関連する自己教師付き手法の欠点を解決する。最後に、我々のフレームワークの中で自己教師付き事前学習法を開発し、半教師付きアプローチと並行してその有効性を証明する。全てのタスクに単一のモデルを使用しているにもかかわらず、我々の統一されたアプローチは、ASR、VSR、AVSRのLRS3やLRS2、また新たにリリースされたWildVSRデータセットにおいて、最近の手法と比較して最先端の性能を達成している。コードとモデルはhttps://github.com/ahaliassos/usr。
要約(オリジナル)
Research in auditory, visual, and audiovisual speech recognition (ASR, VSR, and AVSR, respectively) has traditionally been conducted independently. Even recent self-supervised studies addressing two or all three tasks simultaneously tend to yield separate models, leading to disjoint inference pipelines with increased memory requirements and redundancies. This paper proposes unified training strategies for these systems. We demonstrate that training a single model for all three tasks enhances VSR and AVSR performance, overcoming typical optimisation challenges when training from scratch. Moreover, we introduce a greedy pseudo-labelling approach to more effectively leverage unlabelled samples, addressing shortcomings in related self-supervised methods. Finally, we develop a self-supervised pre-training method within our framework, proving its effectiveness alongside our semi-supervised approach. Despite using a single model for all tasks, our unified approach achieves state-of-the-art performance compared to recent methods on LRS3 and LRS2 for ASR, VSR, and AVSR, as well as on the newly released WildVSR dataset. Code and models are available at https://github.com/ahaliassos/usr.
arxiv情報
著者 | Alexandros Haliassos,Rodrigo Mira,Honglie Chen,Zoe Landgraf,Stavros Petridis,Maja Pantic |
発行日 | 2024-11-04 16:46:53+00:00 |
arxivサイト | arxiv_id(pdf) |