要約
継続的手話認識 (CSLR) の最終的な目標は、特別な人々と普通の人々の間のコミュニケーションを促進することです。これには、ある程度のリアルタイム性とモデルの展開能力が必要です。
しかし、CSLR に関するこれまでの研究では、リアルタイム性とデプロイ能力にほとんど注意が払われていませんでした。
モデルのリアルタイム性と展開能力を改善するために,この論文はゼロパラメータ,ゼロ計算時間重畳交差モジュール(TSCM)を提案し,それを2D畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成した。
、これにより、2D 畳み込みは、他の時空間畳み込みと比較して、パラメーターの増加がなく、展開コストが低い強力な時空間モデリング機能を持つことができます。
TSCM に基づく全体的な CSLR モデルは、このホワイト ペーパーの改良された ResBlockT ネットワークに基づいて構築されています。
「TSCM+2D 畳み込み」のハイブリッド畳み込みが ResNet ネットワークの ResBlock に適用されて新しい ResBlockT が形成され、モデルをトレーニングするためにランダム勾配停止とマルチレベル CTC 損失が導入され、最終的な認識 WER が削減されます。
トレーニング メモリの使用量を調整し、ResNet ネットワークを画像分類タスクからビデオ認識タスクに拡張します。
さらに、この研究は、認識のためのエンドツーエンド学習のために、手話ビデオの時空間特徴の 2D 畳み込み抽出のみを使用する CSLR で最初の研究です。
2 つの大規模な連続手話データセットの実験は、提案された方法の有効性を実証し、非常に競争力のある結果を達成します。
要約(オリジナル)
The ultimate goal of continuous sign language recognition(CSLR) is to facilitate the communication between special people and normal people, which requires a certain degree of real-time and deploy-ability of the model. However, in the previous research on CSLR, little attention has been paid to the real-time and deploy-ability. In order to improve the real-time and deploy-ability of the model, this paper proposes a zero parameter, zero computation temporal superposition crossover module(TSCM), and combines it with 2D convolution to form a ‘TSCM+2D convolution’ hybrid convolution, which enables 2D convolution to have strong spatial-temporal modelling capability with zero parameter increase and lower deployment cost compared with other spatial-temporal convolutions. The overall CSLR model based on TSCM is built on the improved ResBlockT network in this paper. The hybrid convolution of ‘TSCM+2D convolution’ is applied to the ResBlock of the ResNet network to form the new ResBlockT, and random gradient stop and multi-level CTC loss are introduced to train the model, which reduces the final recognition WER while reducing the training memory usage, and extends the ResNet network from image classification task to video recognition task. In addition, this study is the first in CSLR to use only 2D convolution extraction of sign language video temporal-spatial features for end-to-end learning for recognition. Experiments on two large-scale continuous sign language datasets demonstrate the effectiveness of the proposed method and achieve highly competitive results.
arxiv情報
著者 | Qidan Zhu,Jing Li,Fei Yuan,Quan Gan |
発行日 | 2023-01-27 03:20:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google