Towards the extraction of robust sign embeddings for low resource sign language recognition

要約

分離手話認識 (SLR) は、限られた署名者のグループによってゆっくりと明確に実行された手話を含む比較的大規模なデータセットに主に適用されてきました。
しかし、現実のシナリオでは、困難な視覚条件、協調的な署名、小規模なデータセット、および署名者に依存しないモデルの必要性に直面します。
この困難な問題に取り組むには、手話ビデオを処理するための堅牢な特徴抽出プログラムが必要です。
人間の姿勢推定器が理想的な候補であると期待できます。
ただし、トレーニング セットとのドメインの不一致や手話での難しいポーズのため、手話データに対する堅牢性に欠けており、画像ベースのモデルはキーポイント ベースのモデルよりも優れていることがよくあります。
さらに、画像ベースのモデルを使用した転移学習の一般的な手法ではさらに高い精度が得られますが、キーポイント ベースのモデルは通常、すべての SLR データセットで最初からトレーニングされます。
これらの要因により、一眼レフカメラの有用性が制限されます。
既存の文献からは、姿勢推定器が存在する場合、どの姿勢推定器が SLR に最適なパフォーマンスを発揮するかも明らかではありません。
SLR で最も人気のある 3 つの姿勢推定ツールである OpenPose、MMPose、MediaPipe を比較します。
キーポイントの正規化、キーポイントの代入の欠落、およびポーズの埋め込みの学習を通じて、大幅に優れた結果が得られ、転移学習が可能になることを示します。
我々は、キーポイントベースの埋め込みには言語間の機能が含まれていることを示します。つまり、キーポイントベースの埋め込みは、手話間で転送でき、ターゲット手話で SLR モデルの分類子層のみを微調整する場合でも、競争力のあるパフォーマンスを達成できます。
さらに、微調整された転送された埋め込みを使用すると、ターゲットの手話のみでトレーニングされたモデルよりも優れたパフォーマンスを実現します。
これらの埋め込みの適用は、将来、リソースの少ない手話に特に役立つことが判明する可能性があります。

要約(オリジナル)

Isolated Sign Language Recognition (SLR) has mostly been applied on relatively large datasets containing signs executed slowly and clearly by a limited group of signers. In real-world scenarios, however, we are met with challenging visual conditions, coarticulated signing, small datasets, and the need for signer independent models. To tackle this difficult problem, we require a robust feature extractor to process the sign language videos. One could expect human pose estimators to be ideal candidates. However, due to a domain mismatch with their training sets and challenging poses in sign language, they lack robustness on sign language data and image based models often still outperform keypoint based models. Furthermore, whereas the common practice of transfer learning with image based models yields even higher accuracy, keypoint based models are typically trained from scratch on every SLR dataset. These factors limit their usefulness for SLR. From the existing literature, it is also not clear which, if any, pose estimator performs best for SLR. We compare the three most popular pose estimators for SLR: OpenPose, MMPose and MediaPipe. We show that through keypoint normalization, missing keypoint imputation, and learning a pose embedding, we can obtain significantly better results and enable transfer learning. We show that keypoint-based embeddings contain cross-lingual features: they can transfer between sign languages and achieve competitive performance even when fine-tuning only the classifier layer of an SLR model on a target sign language. We furthermore achieve better performance using fine-tuned transferred embeddings than models trained only on the target sign language. The application of these embeddings could prove particularly useful for low resource sign languages in the future.

arxiv情報

著者 Mathieu De Coster,Ellen Rushe,Ruth Holmes,Anthony Ventresque,Joni Dambre
発行日 2023-06-30 11:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク