要約
自動手話認識 (SLR) は、人間とコンピューターの対話および機械学習の分野における重要なトピックです。
一方で、ビデオ処理、画像処理、インテリジェント システム、言語学などのさまざまな知識領域の介入を必要とする複雑な課題を引き起こします。
一方で、手話の確実な認識は、聴覚障害者に対する手話の教育だけでなく、翻訳プロセスや聴覚障害者の統合にも役立つ可能性があります。
SLR システムは通常、標識を認識するために隠れマルコフ モデル、動的タイムワーピング、または同様のモデルを採用しています。
このような手法では、フレームの順序付けを利用して仮説の数を減らします。
この論文では、位置、動き、手の形状などのさまざまなタイプの特徴に基づいてサブ分類器を組み合わせた、標識分類のための一般的な確率モデルを示します。
このモデルは、順序付けが認識に必須ではないという仮説を調査するために、すべての分類ステップでバッグオブワードアプローチを採用しています。
提案されたモデルは、64 クラスの手話と 3,200 のサンプルを含むアルゼンチン手話データセットで 97% の精度を達成し、順序付けなしの認識が実際に可能であるという証拠を提供しました。
要約(オリジナル)
Automatic sign language recognition (SLR) is an important topic within the areas of human-computer interaction and machine learning. On the one hand, it poses a complex challenge that requires the intervention of various knowledge areas, such as video processing, image processing, intelligent systems and linguistics. On the other hand, robust recognition of sign language could assist in the translation process and the integration of hearing-impaired people, as well as the teaching of sign language for the hearing population. SLR systems usually employ Hidden Markov Models, Dynamic Time Warping or similar models to recognize signs. Such techniques exploit the sequential ordering of frames to reduce the number of hypothesis. This paper presents a general probabilistic model for sign classification that combines sub-classifiers based on different types of features such as position, movement and handshape. The model employs a bag-of-words approach in all classification steps, to explore the hypothesis that ordering is not essential for recognition. The proposed model achieved an accuracy rate of 97% on an Argentinian Sign Language dataset containing 64 classes of signs and 3200 samples, providing some evidence that indeed recognition without ordering is possible.
arxiv情報
著者 | Franco Ronchetti,Facundo Manuel Quiroga,César Estrebou,Laura Lanzarini,Alejandro Rosete |
発行日 | 2023-10-26 14:47:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google