SparseVSR: Lightweight and Noise Robust Visual Speech Recognition


ディープ ニューラル ネットワークの最近の進歩により、視覚音声認識において前例のない成功が達成されました。
当社のスパース モデルは、LRS3 データセットの 10% のスパース性で最先端の結果を達成し、最大 70% のスパース性までの密な同等モデルを上回ります。
7 つの異なる視覚ノイズ タイプで 50% スパース モデルを評価し、密な等価モデルと比較して全体的に 2% 以上の WER の絶対的な改善を達成しました。


Recent advances in deep neural networks have achieved unprecedented success in visual speech recognition. However, there remains substantial disparity between current methods and their deployment in resource-constrained devices. In this work, we explore different magnitude-based pruning techniques to generate a lightweight model that achieves higher performance than its dense model equivalent, especially under the presence of visual noise. Our sparse models achieve state-of-the-art results at 10% sparsity on the LRS3 dataset and outperform the dense equivalent up to 70% sparsity. We evaluate our 50% sparse model on 7 different visual noise types and achieve an overall absolute improvement of more than 2% WER compared to the dense equivalent. Our results confirm that sparse networks are more resistant to noise than dense networks.


著者 Adriana Fernandez-Lopez,Honglie Chen,Pingchuan Ma,Alexandros Haliassos,Stavros Petridis,Maja Pantic
発行日 2023-07-10 13:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク