Design of Human Machine Interface through vision-based low-cost Hand Gesture Recognition system based on deep CNN

要約

この作品では、リアルタイムの手ジェスチャー認識システムベースのヒューマンコンピュータインターフェース(HCI)が提示されます。
このシステムは、(1)手の検出、(2)ジェスチャのセグメンテーション、(3)転移学習法を使用した6つの事前トレーニング済みCNNモデルの使用、(4)インタラクティブなヒューマンマシンインターフェイスの構築、(4)の6つの段階で構成されます。
5)ジェスチャー制御仮想マウスの開発、(6)ポインターの動きの滑らかさが改善されたことに基づいて、手の位置を推定するためのカルマンフィルターの使用。
6つの事前トレーニング済み畳み込みニューラルネットワーク(CNN)モデル(VGG16、VGG19、ResNet50、ResNet101、Inception-V1、およびMobileNet-V1)を使用して、手のジェスチャー画像を分類しました。
モデルのパフォーマンスを評価するために、3つのマルチクラスデータセット(2つはパブリックで1つはカスタム)が使用されています。
モデルのパフォーマンスを考慮すると、Inception-V1は、精度、精度、再現率、およびFスコア値の点で、他の5つの事前トレーニング済みモデルと比較して大幅に優れた分類パフォーマンスを示していることが観察されています。
ジェスチャ認識システムは拡張され、リアルタイムシナリオでさまざまなカスタマイズされたジェスチャコマンドを使用してマルチメディアアプリケーション(VLCプレーヤー、オーディオプレーヤー、ファイル管理、2Dスーパーマリオブロスゲームのプレイなど)を制御するために使用されます。
このシステムの平均速度は35fps(フレーム/秒)に達し、リアルタイムシナリオの要件を満たしています。

要約(オリジナル)

In this work, a real-time hand gesture recognition system-based human-computer interface (HCI) is presented. The system consists of six stages: (1) hand detection, (2) gesture segmentation, (3) use of six pre-trained CNN models by using the transfer-learning method, (4) building an interactive human-machine interface, (5) development of a gesture-controlled virtual mouse, (6) use of Kalman filter to estimate the hand position, based on that the smoothness of the motion of pointer is improved. Six pre-trained convolutional neural network (CNN) models (VGG16, VGG19, ResNet50, ResNet101, Inception-V1, and MobileNet-V1) have been used to classify hand gesture images. Three multi-class datasets (two publicly and one custom) have been used to evaluate the model performances. Considering the models’ performances, it has been observed that Inception-V1 has significantly shown a better classification performance compared to the other five pre-trained models in terms of accuracy, precision, recall, and F-score values. The gesture recognition system is expanded and used to control multimedia applications (like VLC player, audio player, file management, playing 2D Super-Mario-Bros game, etc.) with different customized gesture commands in real-time scenarios. The average speed of this system has reached 35 fps (frame per seconds), which meets the requirements for the real-time scenario.

arxiv情報

著者 Abir Sen,Tapas Kumar Mishra,Ratnakar Dash
発行日 2022-07-11 13:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク