SparseVSR: Lightweight and Noise Robust Visual Speech Recognition

要約

ディープ ニューラル ネットワークの最近の進歩により、視覚音声認識において前例のない成功が達成されました。
ただし、現在の方法と、リソースに制約のあるデバイスへの導入との間には、依然として大きな差異があります。
この研究では、特に視覚的なノイズが存在する場合に、同等の高密度モデルよりも高いパフォーマンスを達成する軽量モデルを生成するために、さまざまな大きさに基づく枝刈り手法を検討します。
当社のスパース モデルは、LRS3 データセットの 10% のスパース性で最先端の結果を達成し、最大 70% のスパース性までの密な同等モデルを上回ります。
7 つの異なる視覚ノイズ タイプで 50% スパース モデルを評価し、密な等価モデルと比較して全体的に 2% 以上の WER の絶対的な改善を達成しました。
私たちの結果は、疎なネットワークが密なネットワークよりもノイズに強いことを裏付けています。

要約(オリジナル)

Recent advances in deep neural networks have achieved unprecedented success in visual speech recognition. However, there remains substantial disparity between current methods and their deployment in resource-constrained devices. In this work, we explore different magnitude-based pruning techniques to generate a lightweight model that achieves higher performance than its dense model equivalent, especially under the presence of visual noise. Our sparse models achieve state-of-the-art results at 10% sparsity on the LRS3 dataset and outperform the dense equivalent up to 70% sparsity. We evaluate our 50% sparse model on 7 different visual noise types and achieve an overall absolute improvement of more than 2% WER compared to the dense equivalent. Our results confirm that sparse networks are more resistant to noise than dense networks.

arxiv情報

著者 Adriana Fernandez-Lopez,Honglie Chen,Pingchuan Ma,Alexandros Haliassos,Stavros Petridis,Maja Pantic
発行日 2023-07-10 13:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク