Position and Rotation Invariant Sign Language Recognition from 3D Kinect Data with Recurrent Neural Networks

要約

手話は、音声障害者と聴覚障害者の間の身振りに基づく象徴的なコミュニケーション媒体です。
また、健常者と障害者の間のコミュニケーション ブリッジとしても機能します。
残念なことに、ほとんどの場合、障害のない人はこのような記号言語に精通しておらず、これら 2 つのカテゴリ間の自然な情報の流れが制限されています。
したがって、手話をシームレスに自然言語に翻訳する自動翻訳メカニズムは非常に有利です。
この論文では、30 の基本的なインドの手話の認識を試みます。
ジェスチャーは、3D マップ (RGB + 深度) の時系列として表されます。各マップは、Kinect センサーによってキャプチャされた 20 の身体関節の 3D 座標で構成されます。
分類器にはリカレント ニューラル ネットワーク (RNN) が使用されます。
分類器のパフォーマンスを向上させるために、深度フレームの位置合わせ補正に幾何学的変換を使用します。
私たちの実験では、モデルは 84.81% の精度を達成しています。

要約(オリジナル)

Sign language is a gesture-based symbolic communication medium among speech and hearing impaired people. It also serves as a communication bridge between non-impaired and impaired populations. Unfortunately, in most situations, a non-impaired person is not well conversant in such symbolic languages restricting the natural information flow between these two categories. Therefore, an automated translation mechanism that seamlessly translates sign language into natural language can be highly advantageous. In this paper, we attempt to perform recognition of 30 basic Indian sign gestures. Gestures are represented as temporal sequences of 3D maps (RGB + depth), each consisting of 3D coordinates of 20 body joints captured by the Kinect sensor. A recurrent neural network (RNN) is employed as the classifier. To improve the classifier’s performance, we use geometric transformation for the alignment correction of depth frames. In our experiments, the model achieves 84.81% accuracy.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Partha Pratim Roy,Umapada Pal
発行日 2023-03-14 15:20:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク