Self-Emphasizing Network for Continuous Sign Language Recognition

要約

手と顔は、手話を表現する上で重要な役割を果たします。
それらの機能は通常、システム パフォーマンスを向上させるために特に活用されます。
ただし、視覚的表現を効果的に抽出し、手と顔の軌跡をキャプチャするために、以前の方法では常に計算量が多くなり、トレーニングの複雑さが増します。
彼らは通常、非常に重いポーズ推定ネットワークを使用して人体のキーポイントを特定するか、事前に抽出された追加のヒートマップを監視に使用します。
この問題を軽減するために、追加の計算をほとんど行わず、追加の高価な監視なしで、自発的な方法で有益な空間領域を強調する自己強調ネットワーク (SEN) を提案します。
具体的には、SEN は最初に軽量サブネットワークを使用してローカルの時空間特徴を組み込み、有益な領域を識別し、次にアテンション マップを介して元の特徴を動的に拡張します。
また、すべてのフレームが認識に等しく寄与するわけではないことも観察されています。
これらの識別フレームを適応的に強調し、冗長フレームを抑制するための一時的な自己強調モジュールを提示します。
手と顔の機能を備えた以前の方法との包括的な比較は、常に膨大な計算を必要とし、高価な追加の監視に依存しているにもかかわらず、私たちの方法の優位性を示しています。
驚くべきことに、余分な計算をほとんど行わずに、SEN は 4 つの大規模なデータセット、PHOENIX14、PHOENIX14-T、CSL-Daily、および CSL で新しい最先端の精度を達成します。
視覚化は、有益な空間的および時間的特徴を強調する上での SEN の効果を検証します。
コードは https://github.com/hulianyuyy/SEN_CSLR で入手できます

要約(オリジナル)

Hand and face play an important role in expressing sign language. Their features are usually especially leveraged to improve system performance. However, to effectively extract visual representations and capture trajectories for hands and face, previous methods always come at high computations with increased training complexity. They usually employ extra heavy pose-estimation networks to locate human body keypoints or rely on additional pre-extracted heatmaps for supervision. To relieve this problem, we propose a self-emphasizing network (SEN) to emphasize informative spatial regions in a self-motivated way, with few extra computations and without additional expensive supervision. Specifically, SEN first employs a lightweight subnetwork to incorporate local spatial-temporal features to identify informative regions, and then dynamically augment original features via attention maps. It’s also observed that not all frames contribute equally to recognition. We present a temporal self-emphasizing module to adaptively emphasize those discriminative frames and suppress redundant ones. A comprehensive comparison with previous methods equipped with hand and face features demonstrates the superiority of our method, even though they always require huge computations and rely on expensive extra supervision. Remarkably, with few extra computations, SEN achieves new state-of-the-art accuracy on four large-scale datasets, PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. Visualizations verify the effects of SEN on emphasizing informative spatial and temporal features. Code is available at https://github.com/hulianyuyy/SEN_CSLR

arxiv情報

著者 Lianyu Hu,Liqing Gao,Zekang liu,Wei Feng
発行日 2022-11-30 15:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク