要約
ほとんどの深層学習ベースの連続手話認識 (CSLR) モデルは、視覚モジュール、逐次モジュール、位置合わせモジュールで構成される同様のバックボーンを共有しています。
ただし、トレーニング サンプルが限られているため、コネクショニストの時間分類損失では、そのような CSLR バックボーンを十分にトレーニングできない可能性があります。
この研究では、CSLR バックボーンを強化するための 3 つの補助タスクを提案します。
最初のタスクは、一貫性の観点から、トレーニング不足の問題に敏感なビジュアル モジュールを強化します。
具体的には、手話の情報は主に手話者の顔の表情や手の動きに含まれるため、視覚モジュールが情報領域、つまり空間的注意の一貫性に焦点を当てるように強制するために、キーポイントに誘導された空間的注意モジュールが開発される。
第 2 に、ビジュアル モジュールとシーケンシャル モジュールの両方の出力特徴が同じ文を表すことに注目し、バックボーンの力をより有効に活用するために、ビジュアル モジュールとシーケンシャル モジュールの間に文埋め込みの一貫性制約を課して、両方の特徴の表現力を強化します。
上記の補助タスクでトレーニングされた CSLR モデルを一貫性強化 CSLR と名付けます。これは、トレーニングとテストの両方ですべての署名者が現れる署名者依存のデータセットで良好に機能します。
署名者に依存しない設定に対してより堅牢にするために、バックボーンから署名者情報を削除するために、特徴のもつれ解除に基づく署名者削除モジュールがさらに提案されています。
これらの補助作業の有効性を検証するために、広範囲にわたるアブレーション研究が実施されています。
さらに注目すべきことに、トランスベースのバックボーンを備えた当社のモデルは、PHOENIX-2014、PHOENIX-2014-T、PHOENIX-2014-SI、CSL、CSL-Daily の 5 つのベンチマークで最先端または競争力のあるパフォーマンスを達成しています。
コードとモデルは https://github.com/2000ZRL/LCSA_C2SLR_SRM で入手できます。
要約(オリジナル)
Most deep-learning-based continuous sign language recognition (CSLR) models share a similar backbone consisting of a visual module, a sequential module, and an alignment module. However, due to limited training samples, a connectionist temporal classification loss may not train such CSLR backbones sufficiently. In this work, we propose three auxiliary tasks to enhance the CSLR backbones. The first task enhances the visual module, which is sensitive to the insufficient training problem, from the perspective of consistency. Specifically, since the information of sign languages is mainly included in signers’ facial expressions and hand movements, a keypoint-guided spatial attention module is developed to enforce the visual module to focus on informative regions, i.e., spatial attention consistency. Second, noticing that both the output features of the visual and sequential modules represent the same sentence, to better exploit the backbone’s power, a sentence embedding consistency constraint is imposed between the visual and sequential modules to enhance the representation power of both features. We name the CSLR model trained with the above auxiliary tasks as consistency-enhanced CSLR, which performs well on signer-dependent datasets in which all signers appear during both training and testing. To make it more robust for the signer-independent setting, a signer removal module based on feature disentanglement is further proposed to remove signer information from the backbone. Extensive ablation studies are conducted to validate the effectiveness of these auxiliary tasks. More remarkably, with a transformer-based backbone, our model achieves state-of-the-art or competitive performance on five benchmarks, PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL, and CSL-Daily. Code and Models are available at https://github.com/2000ZRL/LCSA_C2SLR_SRM.
arxiv情報
著者 | Ronglai Zuo,Brian Mak |
発行日 | 2024-01-11 14:54:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google