Temporal superimposed crossover module for effective continuous sign language

要約

連続手話認識(CSLR)の最終目標は、特別な人と普通の人との間のコミュニケーションを円滑にすることであり、そのためには、モデルのある程度のリアルタイム性とデプロイ性が必要です。しかし、これまでのCSLRの研究において、リアルタイム性と展開性にはほとんど注意が払われていませんでした。本論文では、モデルのリアルタイム性と展開性を向上させるために、ゼロパラメータ、ゼロ計算の時間的重ね合わせ交差モジュール(TSCM)を提案し、2次元畳み込みと組み合わせて「TSCM+2次元畳み込み」ハイブリッド畳み込みを形成し、他の空間-時間畳み込みと比較してパラメータ増加ゼロ、展開コスト低減で2次元畳み込みが強い空間-時間モデル化能力を有するようにします。TSCMに基づく全体的なCSLRモデルは、本論文で改良されたResBlockTネットワーク上に構築されています。TSCM+2次元畳み込み」のハイブリッド畳み込みをResNetネットワークのResBlockに適用して新しいResBlockTを形成し、ランダム勾配停止と多値CTC損失を導入してモデルを学習することにより、学習メモリ使用量を削減しながら最終認識WERを下げ、ResNetネットワークを画像分類タスクからビデオ認識タスクに拡張した。また、本研究は、手話映像の時間-空間特徴の2次元畳み込み抽出のみを用いて、認識のためのエンドツーエンド学習を行うCSLRでは初の試みである。2つの大規模連続手話データセットに対する実験により、提案手法の有効性を示し、高い競争力を持つ結果を達成した。

要約(オリジナル)

The ultimate goal of continuous sign language recognition(CSLR) is to facilitate the communication between special people and normal people, which requires a certain degree of real-time and deploy-ability of the model. However, in the previous research on CSLR, little attention has been paid to the real-time and deploy-ability. In order to improve the real-time and deploy-ability of the model, this paper proposes a zero parameter, zero computation temporal superposition crossover module(TSCM), and combines it with 2D convolution to form a ‘TSCM+2D convolution’ hybrid convolution, which enables 2D convolution to have strong spatial-temporal modelling capability with zero parameter increase and lower deployment cost compared with other spatial-temporal convolutions. The overall CSLR model based on TSCM is built on the improved ResBlockT network in this paper. The hybrid convolution of ‘TSCM+2D convolution’ is applied to the ResBlock of the ResNet network to form the new ResBlockT, and random gradient stop and multi-level CTC loss are introduced to train the model, which reduces the final recognition WER while reducing the training memory usage, and extends the ResNet network from image classification task to video recognition task. In addition, this study is the first in CSLR to use only 2D convolution extraction of sign language video temporal-spatial features for end-to-end learning for recognition. Experiments on two large-scale continuous sign language datasets demonstrate the effectiveness of the proposed method and achieve highly competitive results.

arxiv情報

著者 Qidan Zhu,Jing Li,Fei Yuan,Quan Gan
発行日 2022-11-07 09:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク