Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets

要約

手話認識 (SLR) は、大規模な注釈付き手話データセットでトレーニングされたディープ ニューラル ネットワークのおかげで、最近画期的なパフォーマンスを達成しました。
多くの異なる手話のうち、これらの注釈付きデータセットは、選ばれた少数の手話でのみ利用できます。
手話ビデオの光沢レベルのラベルを取得するのは難しいため、既存の注釈付きソースから知識を移転して学習することは、リソースが不足している手話の認識に役立ちます。
この研究では、2 つの既存の公開トルコ SLR データセットから、公開されているクロスデータセット転移学習ベンチマークを提供します。
時間グラフ畳み込みベースの手話認識アプローチを使用して、5 つの教師あり転移学習アプローチを評価し、閉集合および部分集合のクロスデータセット転移学習を実験します。
実験により、特殊な教師あり転移学習手法を使用すると、微調整ベースの転移学習よりも改善が可能であることが実証されています。

要約(オリジナル)

Sign language recognition (SLR) has recently achieved a breakthrough in performance thanks to deep neural networks trained on large annotated sign datasets. Of the many different sign languages, these annotated datasets are only available for a select few. Since acquiring gloss-level labels on sign language videos is difficult, learning by transferring knowledge from existing annotated sources is useful for recognition in under-resourced sign languages. This study provides a publicly available cross-dataset transfer learning benchmark from two existing public Turkish SLR datasets. We use a temporal graph convolution-based sign language recognition approach to evaluate five supervised transfer learning approaches and experiment with closed-set and partial-set cross-dataset transfer learning. Experiments demonstrate that improvement over finetuning based transfer learning is possible with specialized supervised transfer learning methods.

arxiv情報

著者 Ahmet Alp Kindiroglu,Ozgur Kara,Ogulcan Ozdemir,Lale Akarun
発行日 2024-03-21 16:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク