Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability

要約

インクルージョンを促進し、主なコミュニケーション手段として手話に依存している人々の効果的なコミュニケーションを確保するには、手話認識 (SLR) が不可欠です。
手話認識 (SLR) は多様なテクノロジーとシームレスに統合されており、デジタル プラットフォーム、ビデオ通話、通信デバイスの使用を容易にすることで聴覚障害者コミュニティのアクセシビリティを強化します。
この問題を効果的に解決するために、ディープ ニューラル ネットワークを使用して手話認識を完全に自動化する新しいソリューションを提案します。
この方法論は、全体的なパフォーマンスを最適化するために、高度な前処理方法論を統合します。
resnet、inception、xception、および vgg のアーキテクチャを利用して、手話の画像を選択的に分類します。
DNN アーキテクチャを準備し、それを前処理アーキテクチャとマージしました。
後処理フェーズでは、協調ゲーム理論に基づいた SHAP Deep Explainer を利用して、機械学習モデルの出力に対する特定の機能の影響を定量化しました。
提案された手法のトレーニングとテストには、ブータン手話 (BSL) データセットが使用されました。
ブータン手話 (BSL) データセットでトレーニングしている間、DNN モデルを使用した ResNet50 全体の精度は 98.90% と優れていました。
情報を明確に提供するモデルの能力は、SHAP (SHapley Additive exPlanations) メソッドを使用して評価されました。
かなりの堅牢性と信頼性のおかげで、提案された方法論的アプローチは、手話認識のための完全に自動化されたシステムを開発するために使用できます。

要約(オリジナル)

To promote inclusion and ensuring effective communication for those who rely on sign language as their main form of communication, sign language recognition (SLR) is crucial. Sign language recognition (SLR) seamlessly incorporates with diverse technology, enhancing accessibility for the deaf community by facilitating their use of digital platforms, video calls, and communication devices. To effectively solve this problem, we suggest a novel solution that uses a deep neural network to fully automate sign language recognition. This methodology integrates sophisticated preprocessing methodologies to optimise the overall performance. The architectures resnet, inception, xception, and vgg are utilised to selectively categorise images of sign language. We prepared a DNN architecture and merged it with the pre-processing architectures. In the post-processing phase, we utilised the SHAP deep explainer, which is based on cooperative game theory, to quantify the influence of specific features on the output of a machine learning model. Bhutanese-Sign-Language (BSL) dataset was used for training and testing the suggested technique. While training on Bhutanese-Sign-Language (BSL) dataset, overall ResNet50 with the DNN model performed better accuracy which is 98.90%. Our model’s ability to provide informational clarity was assessed using the SHAP (SHapley Additive exPlanations) method. In part to its considerable robustness and reliability, the proposed methodological approach can be used to develop a fully automated system for sign language recognition.

arxiv情報

著者 A. E. M Ridwan,Mushfiqul Islam Chowdhury,Mekhala Mariam Mary,Md Tahmid Chowdhury Abir
発行日 2024-09-11 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク