Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining

要約

連続手話認識 (CSLR) のための従来の深層学習フレームワークは、単一またはマルチモーダルの特徴抽出器、シーケンス学習モジュール、および光沢を出力するデコーダで構成されています。
シーケンス学習モジュールは、トランスフォーマーがシーケンス間のタスクでその有効性を実証する重要な部分です。
自然言語処理と音声認識の分野における研究の進歩を分析すると、さまざまなトランスフォーマーのバリアントが急速に導入されていることがわかります。
ただし、手話の領域では、シーケンス学習コンポーネントの実験は限られています。
この研究では、音声認識用の最先端の Conformer モデルが CSLR に適応されており、提案されたモデルは ConSignformer と呼ばれています。
これは、ビジョンベースのタスクに Conformer を採用した最初の例となります。
ConSignformer には、特徴抽出器としての CNN のバイモーダル パイプラインと、シーケンス学習用の Conformer があります。
コンテキスト学習を改善するために、クロスモーダル相対注意 (CMRA) も導入します。
CMRA をモデルに組み込むことで、データ内の複雑な関係を学習して利用することがより熟達します。
Conformer モデルをさらに強化するために、厳選された手話データセットに対して回帰特徴抽出と呼ばれる教師なし事前トレーニングが実行されます。
事前トレーニングされた Conformer は、下流の認識タスク用に微調整されます。
実験結果は、採用された事前トレーニング戦略の有効性を確認し、CMRA が認識プロセスにどのように貢献するかを示しています。
驚くべきことに、私たちのモデルは、Conformer ベースのバックボーンを活用して、ベンチマーク データセットである PHOENIX-2014 および PHOENIX-2014T で最先端のパフォーマンスを達成しています。

要約(オリジナル)

Conventional Deep Learning frameworks for continuous sign language recognition (CSLR) are comprised of a single or multi-modal feature extractor, a sequence-learning module, and a decoder for outputting the glosses. The sequence learning module is a crucial part wherein transformers have demonstrated their efficacy in the sequence-to-sequence tasks. Analyzing the research progress in the field of Natural Language Processing and Speech Recognition, a rapid introduction of various transformer variants is observed. However, in the realm of sign language, experimentation in the sequence learning component is limited. In this work, the state-of-the-art Conformer model for Speech Recognition is adapted for CSLR and the proposed model is termed ConSignformer. This marks the first instance of employing Conformer for a vision-based task. ConSignformer has bimodal pipeline of CNN as feature extractor and Conformer for sequence learning. For improved context learning we also introduce Cross-Modal Relative Attention (CMRA). By incorporating CMRA into the model, it becomes more adept at learning and utilizing complex relationships within the data. To further enhance the Conformer model, unsupervised pretraining called Regressional Feature Extraction is conducted on a curated sign language dataset. The pretrained Conformer is then fine-tuned for the downstream recognition task. The experimental results confirm the effectiveness of the adopted pretraining strategy and demonstrate how CMRA contributes to the recognition process. Remarkably, leveraging a Conformer-based backbone, our model achieves state-of-the-art performance on the benchmark datasets: PHOENIX-2014 and PHOENIX-2014T.

arxiv情報

著者 Neena Aloysius,Geetha M,Prema Nedungadi
発行日 2024-05-20 13:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク