SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer

要約

このペーパーでは、リップリーディング用の効率的な視覚音声エンコーダーを紹介します。
最新の唇の読みの研究はResNetアーキテクチャに基づいており、大成功を収めていますが、時空間情報のモデリングにおける計算の複雑さが高いため、唇の読みの特徴を効率的にキャプチャするのに十分な適切ではありません。
さらに、複雑な視覚モデルを使用すると、唇の読みモデルの複雑さを高めるだけでなく、マルチモーダル研究のネットワーク全体の遅延を誘導します(例えば、視聴覚音声認識、音声拡張、音声分離など)。
畳み込みニューラルネットワーク(CNN)ベースのモデルの限界を克服するために、swin変圧器の階層構造と窓の自己触媒を唇の読みに適用します。
リップリーディングデータの処理に適したSWIN変圧器の新しい軽量スケールを構成し、Swinlip Visual Speech Encoderを提示します。これにより、修正された畳み込み高度変圧器(コンフォーマー)の時間埋め込みが階層構造の従来の空間埋め込みを統合することにより、計算負荷を効率的に削減します。
広範な実験を通じて、単語と文の認識のためにさまざまなバックボーンに適用され、計算負荷が削減された場合、Swinlipがリップリーディングネットワークのパフォーマンスと推論速度を正常に改善することを検証しました。
特に、Swinlipは、英語のLRWおよびMandarin LRW-1000データセットの両方で堅牢なパフォーマンスを実証し、既存の最先端モデルと比較して、計算が少ないマンダリンLRW-1000データセットで最先端のパフォーマンスを達成しました。

要約(オリジナル)

This paper presents an efficient visual speech encoder for lip reading. While most recent lip reading studies have been based on the ResNet architecture and have achieved significant success, they are not sufficiently suitable for efficiently capturing lip reading features due to high computational complexity in modeling spatio-temporal information. Additionally, using a complex visual model not only increases the complexity of lip reading models but also induces delays in the overall network for multi-modal studies (e.g., audio-visual speech recognition, speech enhancement, and speech separation). To overcome the limitations of Convolutional Neural Network (CNN)-based models, we apply the hierarchical structure and window self-attention of the Swin Transformer to lip reading. We configure a new lightweight scale of the Swin Transformer suitable for processing lip reading data and present the SwinLip visual speech encoder, which efficiently reduces computational load by integrating modified Convolution-augmented Transformer (Conformer) temporal embeddings with conventional spatial embeddings in the hierarchical structure. Through extensive experiments, we have validated that our SwinLip successfully improves the performance and inference speed of the lip reading network when applied to various backbones for word and sentence recognition, reducing computational load. In particular, our SwinLip demonstrated robust performance in both English LRW and Mandarin LRW-1000 datasets and achieved state-of-the-art performance on the Mandarin LRW-1000 dataset with less computation compared to the existing state-of-the-art model.

arxiv情報

著者 Young-Hu Park,Rae-Hong Park,Hyung-Min Park
発行日 2025-05-07 13:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.AS パーマリンク