Position and Rotation Invariant Sign Language Recognition from 3D Kinect Data with Recurrent Neural Networks

要約

手話は、音声と聴覚障害者の間のジェスチャーベースの象徴的なコミュニケーション媒体です。
また、非障害者と障害のある集団の間のコミュニケーション橋としても機能します。
残念ながら、ほとんどの状況では、非障害のある人は、これらの2つのカテゴリ間の自然情報の流れを制限するこのような象徴的な言語では十分に精通していません。
したがって、手話をシームレスに自然言語に変換する自動化された翻訳メカニズムは非常に有利です。
この論文では、30の基本的なインドの看板ジェスチャーの認識を実行しようとします。
ジェスチャーは、3Dマップ(RGB +深さ)の時間シーケンスとして表され、それぞれがKinectセンサーによって捕捉された20個のボディジョイントの3D座標で構成されています。
再発性ニューラルネットワーク(RNN)が分類器として採用されています。
分類器のパフォーマンスを向上させるために、深度フレームのアライメント補正に幾何学的変換を使用します。
実験では、モデルは84.81%の精度を達成します。

要約(オリジナル)

Sign language is a gesture-based symbolic communication medium among speech and hearing impaired people. It also serves as a communication bridge between non-impaired and impaired populations. Unfortunately, in most situations, a non-impaired person is not well conversant in such symbolic languages restricting the natural information flow between these two categories. Therefore, an automated translation mechanism that seamlessly translates sign language into natural language can be highly advantageous. In this paper, we attempt to perform recognition of 30 basic Indian sign gestures. Gestures are represented as temporal sequences of 3D maps (RGB + depth), each consisting of 3D coordinates of 20 body joints captured by the Kinect sensor. A recurrent neural network (RNN) is employed as the classifier. To improve the classifier’s performance, we use geometric transformation for the alignment correction of depth frames. In our experiments, the model achieves 84.81% accuracy.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Partha Pratim Roy,Umapada Pal
発行日 2025-02-18 16:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク