On the Importance of Sign Labeling: The Hamburg Sign Language Notation System Case Study

要約

ラベル付けは教師あり機械学習の基礎であり、手話認識など様々なアプリケーションで活用されている。しかし、このようなアルゴリズムは、汎化性の高いモデルを作成するために、学習プロセスにおいて一貫してラベル付けされた膨大な量のデータを供給する必要があります。また、全国的に多様化する手話に対応した自動化ソリューションが求められています。ハンブルグ手話表記システム(HamNoSys)のように、手話用語の意味ではなく、手話の初期位置や体の動きを記述する言語に依存しない転写システムもありますが、現実世界のあらゆるユースケースに対して正確で信頼できるラベルを提供することにはまだ問題があります。このような背景から、業界では、利用可能なビデオデータの帰属とラベル付けを手作業で行うことに大きく依存しています。本研究では、この問題に取り組み、5つの手話言語のオープンな手話コーパスの様々な管理者から提供されたHamNoSysラベルを徹底的に分析し、ビデオデータのラベル付けで発生する課題を検討します。また、機械学習モデルの学習を目的として、HamNoSysベースのラベルの一貫性と客観性を調査しました。私たちの発見は、現在のラベリング手法の限界について貴重な洞察を提供し、手話認識のためのより正確で効率的なソリューションの開発に関する将来の研究への道を開くものです。

要約(オリジナル)

Labeling is the cornerstone of supervised machine learning, which has been exploited in a plethora of various applications, with sign language recognition being one of them. However, such algorithms must be fed with a huge amount of consistently labeled data during the training process to elaborate a well-generalizing model. In addition, there is a great need for an automated solution that works with any nationally diversified sign language. Although there are language-agnostic transcription systems, such as the Hamburg Sign Language Notation System (HamNoSys) that describe the signer’s initial position and body movement instead of the glosses’ meanings, there are still issues with providing accurate and reliable labels for every real-world use case. In this context, the industry relies heavily on manual attribution and labeling of the available video data. In this work, we tackle this issue and thoroughly analyze the HamNoSys labels provided by various maintainers of open sign language corpora in five sign languages, in order to examine the challenges encountered in labeling video data. We also investigate the consistency and objectivity of HamNoSys-based labels for the purpose of training machine learning models. Our findings provide valuable insights into the limitations of the current labeling methods and pave the way for future research on developing more accurate and efficient solutions for sign language recognition.

arxiv情報

著者 Maria Ferlin,Sylwia Majchrowska,Marta Plantykow,Alicja Kwaśniwska,Agnieszka Mikołajczyk-Bareła,Milena Olech,Jakub Nalepa
発行日 2023-03-07 15:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク