A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing

要約

エアライティングとは、6 自由度の 3 次元空間で、手のジェスチャーによって仮想的に言語文字を書くことを指します。
この論文では、一般的なビデオ カメラ支援畳み込みニューラル ネットワーク (CNN) ベースの空気書き込みフレームワークを提案します。
ジェスチャは、一般的なビデオ カメラの前で固定色のマーカーを使用して実行され、続いて色ベースのセグメンテーションによってマーカーを識別し、マーカー チップの軌跡を追跡します。
次に、事前トレーニング済みの CNN を使用してジェスチャを分類します。
新たに取得したデータを用いた転移学習により、認識精度をさらに向上させます。
システムのパフォーマンスは、色ベースのセグメンテーションにより、照明条件によって大きく異なります。
変動の少ない照明条件では、システムは複数の言語の孤立した一筆書きの数字を認識することができます。
提案されたフレームワークは、英語、ベンガル語、デーバナーガリー数字の個別評価で、それぞれ 97.7%、95.4%、93.7% の認識率を達成しました。

要約(オリジナル)

Air-writing refers to virtually writing linguistic characters through hand gestures in three-dimensional space with six degrees of freedom. This paper proposes a generic video camera-aided convolutional neural network (CNN) based air-writing framework. Gestures are performed using a marker of fixed color in front of a generic video camera, followed by color-based segmentation to identify the marker and track the trajectory of the marker tip. A pre-trained CNN is then used to classify the gesture. The recognition accuracy is further improved using transfer learning with the newly acquired data. The performance of the system varies significantly on the illumination condition due to color-based segmentation. In a less fluctuating illumination condition, the system is able to recognize isolated unistroke numerals of multiple languages. The proposed framework has achieved 97.7%, 95.4% and 93.7% recognition rates in person independent evaluations on English, Bengali and Devanagari numerals, respectively.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Umapada Pal
発行日 2023-03-14 15:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク