Training Strategies for Improved Lip-reading

要約

いくつかのトレーニング戦略と時間モデルは、一連の独立した研究で孤立した単語の読唇術のために最近提案されています。
ただし、最良の戦略を組み合わせて、それぞれの影響を調査する可能性は調査されていません。
このホワイトペーパーでは、最先端のデータ拡張アプローチ、時間モデル、および自己蒸留や単語境界インジケーターの使用などのその他のトレーニング戦略のパフォーマンスを体系的に調査します。
私たちの結果は、Time Masking (TM) が最も重要な拡張であり、その後に混合が続き、Densely-Connected Temporal Convolutional Networks (DC-TCN) が孤立した単語の読唇術に最適な時間モデルであることを示しています。
自己蒸留と単語境界インジケーターを使用することも有益ですが、程度は低くなります。
上記のすべての方法を組み合わせた結果、93.4% の分類精度が得られました。これは、LRW データセットでの現在の最先端のパフォーマンスよりも 4.6% 絶対的に向上しています。
追加のデータセットで事前トレーニングを行うことで、パフォーマンスを 94.1% までさらに向上させることができます。
さまざまなトレーニング戦略のエラー分析により、認識しにくい単語の分類精度が向上することでパフォーマンスが向上することが明らかになりました。

要約(オリジナル)

Several training strategies and temporal models have been recently proposed for isolated word lip-reading in a series of independent works. However, the potential of combining the best strategies and investigating the impact of each of them has not been explored. In this paper, we systematically investigate the performance of state-of-the-art data augmentation approaches, temporal models and other training strategies, like self-distillation and using word boundary indicators. Our results show that Time Masking (TM) is the most important augmentation followed by mixup and Densely-Connected Temporal Convolutional Networks (DC-TCN) are the best temporal model for lip-reading of isolated words. Using self-distillation and word boundary indicators is also beneficial but to a lesser extent. A combination of all the above methods results in a classification accuracy of 93.4%, which is an absolute improvement of 4.6% over the current state-of-the-art performance on the LRW dataset. The performance can be further improved to 94.1% by pre-training on additional datasets. An error analysis of the various training strategies reveals that the performance improves by increasing the classification accuracy of hard-to-recognise words.

arxiv情報

著者 Pingchuan Ma,Yujiang Wang,Stavros Petridis,Jie Shen,Maja Pantic
発行日 2022-09-28 08:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク