要約
手話認識 (SLR) は、大規模な注釈付き手話データセットでトレーニングされたディープ ニューラル ネットワークのおかげで、最近画期的なパフォーマンスを達成しました。
多くの異なる手話のうち、これらの注釈付きデータセットは、選ばれた少数の手話でのみ利用できます。
手話ビデオの光沢レベルのラベルを取得するのは難しいため、既存の注釈付きソースから知識を移転して学習することは、リソースが不足している手話の認識に役立ちます。
この研究では、2 つの既存の公開トルコ SLR データセットから、公開されているクロスデータセット転移学習ベンチマークを提供します。
時間グラフ畳み込みベースの手話認識アプローチを使用して、5 つの教師あり転移学習アプローチを評価し、閉集合および部分集合のクロスデータセット転移学習を実験します。
実験により、特殊な教師あり転移学習手法を使用すると、微調整ベースの転移学習よりも改善が可能であることが実証されています。
要約(オリジナル)
Sign language recognition (SLR) has recently achieved a breakthrough in performance thanks to deep neural networks trained on large annotated sign datasets. Of the many different sign languages, these annotated datasets are only available for a select few. Since acquiring gloss-level labels on sign language videos is difficult, learning by transferring knowledge from existing annotated sources is useful for recognition in under-resourced sign languages. This study provides a publicly available cross-dataset transfer learning benchmark from two existing public Turkish SLR datasets. We use a temporal graph convolution-based sign language recognition approach to evaluate five supervised transfer learning approaches and experiment with closed-set and partial-set cross-dataset transfer learning. Experiments demonstrate that improvement over finetuning based transfer learning is possible with specialized supervised transfer learning methods.
arxiv情報
著者 | Ahmet Alp Kindiroglu,Ozgur Kara,Ogulcan Ozdemir,Lale Akarun |
発行日 | 2024-03-21 16:36:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google