要約
視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が得られ、不利な騒々しい環境でのこのタイプのシステムの堅牢性が向上しました。
ほとんどの場合、このタスクは、2つの独立したエンコーダーで構成されるモデルの設計を通じて対処されており、それぞれが特定のモダリティ専用です。
ただし、最近の作品は統一されたオーディオビジュアルエンコーダーを調査していますが、最適なクロスモーダルアーキテクチャを決定することは依然として継続的な課題です。
さらに、このようなアプローチは、多くの場合、膨大な量のパラメーターと高い計算コストトレーニングプロセスを含むモデルに依存しています。
この論文では、新しい視聴覚フレームワークを紹介することにより、この研究のギャップを埋めることを目指しています。
提案された方法は、私たちの知る限り、パラメーター効率の高いAVSRシステムの設計において、Branchformerなどのエンコーダーアーキテクチャによって提供される柔軟性と解釈可能性を活用する最初の試みを構成します。
より正確には、提案されたフレームワークは、最初にオーディオのみのシステムとビデオのみのシステムを推定し、次にモダリティ固有のモデルによって提供されるレイヤーレベルのブランチスコアに基づいて、テーラードオーディオ視聴統合エンコーダを設計する2つのステップで構成されています。
複数のデータ条件とシナリオをカバーする英語とスペイン語のAVSRベンチマークに関する広範な実験により、提案された方法の有効性が実証されました。
中程度のデータでトレーニングされた場合でも、私たちのモデルは、英語で約2.5 \%の競争力のある単語エラー率(WER)を達成し、スペイン語の既存のアプローチを上回り、平均WERが約9.1 \%の新しいベンチマークを確立します。
これらの結果は、テーラードAVSRシステムが最先端の認識率に達すると同時に、モデルの複雑さW.R.Tを大幅に削減する方法を反映しています。
フィールドでの一般的なアプローチ。
コードと事前に訓練されたモデルは、https://github.com/david-gimeno/tailored-avsrで入手できます。
要約(オリジナル)
Recent advances in Audio-Visual Speech Recognition (AVSR) have led to unprecedented achievements in the field, improving the robustness of this type of system in adverse, noisy environments. In most cases, this task has been addressed through the design of models composed of two independent encoders, each dedicated to a specific modality. However, while recent works have explored unified audio-visual encoders, determining the optimal cross-modal architecture remains an ongoing challenge. Furthermore, such approaches often rely on models comprising vast amounts of parameters and high computational cost training processes. In this paper, we aim to bridge this research gap by introducing a novel audio-visual framework. Our proposed method constitutes, to the best of our knowledge, the first attempt to harness the flexibility and interpretability offered by encoder architectures, such as the Branchformer, in the design of parameter-efficient AVSR systems. To be more precise, the proposed framework consists of two steps: first, estimating audio- and video-only systems, and then designing a tailored audio-visual unified encoder based on the layer-level branch scores provided by the modality-specific models. Extensive experiments on English and Spanish AVSR benchmarks covering multiple data conditions and scenarios demonstrated the effectiveness of our proposed method. Even when trained on a moderate scale of data, our models achieve competitive word error rates (WER) of approximately 2.5\% for English and surpass existing approaches for Spanish, establishing a new benchmark with an average WER of around 9.1\%. These results reflect how our tailored AVSR system is able to reach state-of-the-art recognition rates while significantly reducing the model complexity w.r.t. the prevalent approach in the field. Code and pre-trained models are available at https://github.com/david-gimeno/tailored-avsr.
arxiv情報
著者 | David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos |
発行日 | 2025-02-21 10:52:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google