A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing

要約

エアライティングとは、6つの自由度を持つ3次元空間での手のジェスチャーを通じて、実質的に言語のキャラクターを書くことを指します。
このペーパーでは、一般的なビデオカメラを支援した畳み込み式ニューラルネットワーク(CNN)ベースの空気執筆フレームワークを提案します。
ジェスチャーは、一般的なビデオカメラの前で固定色のマーカーを使用して実行され、その後、色ベースのセグメンテーションが続き、マーカーを識別し、マーカーチップの軌跡を追跡します。
その後、事前に訓練されたCNNを使用して、ジェスチャーを分類します。
新たに取得したデータを使用した転送学習を使用して、認識精度がさらに改善されます。
システムの性能は、色ベースのセグメンテーションにより、照明条件で大きく異なります。
変動しない照明条件では、システムは複数の言語の孤立したユニストローク数値を認識できます。
提案されたフレームワークは、それぞれ英語、ベンガル語、デヴァナガリ数字に関する個人独立した評価で97.7%、95.4%、および93.7%の認識率を達成しました。

要約(オリジナル)

Air-writing refers to virtually writing linguistic characters through hand gestures in three-dimensional space with six degrees of freedom. This paper proposes a generic video camera-aided convolutional neural network (CNN) based air-writing framework. Gestures are performed using a marker of fixed color in front of a generic video camera, followed by color-based segmentation to identify the marker and track the trajectory of the marker tip. A pre-trained CNN is then used to classify the gesture. The recognition accuracy is further improved using transfer learning with the newly acquired data. The performance of the system varies significantly on the illumination condition due to color-based segmentation. In a less fluctuating illumination condition, the system is able to recognize isolated unistroke numerals of multiple languages. The proposed framework has achieved 97.7%, 95.4% and 93.7% recognition rates in person independent evaluations on English, Bengali and Devanagari numerals, respectively.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Umapada Pal
発行日 2025-02-18 16:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク