要約
手話は、難聴を無効にする人々の主要なコミュニケーション言語です。
手話認識(SLR)システムは、標識ジェスチャーを認識し、それらを話し言葉に変換することを目的としています。
SLRの主な課題の1つは、注釈付きデータセットの希少性です。
この問題に対処するために、SLR(SSLR)の半監視学習(SSL)アプローチを提案し、非標識サンプルに注釈を付けて擬似ラベル法を採用しています。
サインジェスチャーは、署名者の骨格のジョイントポイントをコードするポーズ情報を使用して表されます。
この情報は、提案されたアプローチで使用されるトランスバックボーンモデルの入力として使用されます。
さまざまなラベル付きデータサイズにわたってSSLの学習機能を実証するために、さまざまな数のクラスを持つラベル付きデータの異なる割合を使用していくつかの実験が行われました。
SSLアプローチのパフォーマンスは、WLASL-100データセットの完全に監視されている学習ベースのモデルと比較されました。
SSLモデルの得られた結果は、多くの場合、ラベル付けされたデータが少ない監視された学習ベースのモデルよりも優れていました。
要約(オリジナル)
Sign language is the primary communication language for people with disabling hearing loss. Sign language recognition (SLR) systems aim to recognize sign gestures and translate them into spoken language. One of the main challenges in SLR is the scarcity of annotated datasets. To address this issue, we propose a semi-supervised learning (SSL) approach for SLR (SSLR), employing a pseudo-label method to annotate unlabeled samples. The sign gestures are represented using pose information that encodes the signer’s skeletal joint points. This information is used as input for the Transformer backbone model utilized in the proposed approach. To demonstrate the learning capabilities of SSL across various labeled data sizes, several experiments were conducted using different percentages of labeled data with varying numbers of classes. The performance of the SSL approach was compared with a fully supervised learning-based model on the WLASL-100 dataset. The obtained results of the SSL model outperformed the supervised learning-based model with less labeled data in many cases.
arxiv情報
著者 | Hasan Algafri,Hamzah Luqman,Sarah Alyami,Issam Laradji |
発行日 | 2025-04-23 11:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google