要約
この研究では、MobileNetV3、ResNet50、EfficientNet-B2 などの最先端の深層学習モデルを使用してアラビア手話 (ArSL) を認識するための統合アプローチを紹介します。
これらのモデルは、Explainable AI (XAI) 技術によってさらに強化され、解釈可能性が向上します。
ArSL2018 および RGB アラビア文字手話 (AASL) データセットが採用されており、EfficientNet-B2 はそれぞれ 99.48\% と 98.99\% のピーク精度を達成しています。
主なイノベーションには、クラスの不均衡を緩和するための高度なデータ拡張手法、より一般化を図るための層別 5 分割相互検証の実装、明確なモデル決定の透明性のための Grad-CAM の使用が含まれます。
提案されたシステムは、認識精度の新たなベンチマークを設定するだけでなく、解釈可能性も重視しており、医療、教育、包括的なコミュニケーション技術のアプリケーションに適しています。
要約(オリジナル)
This study introduces an integrated approach to recognizing Arabic Sign Language (ArSL) using state-of-the-art deep learning models such as MobileNetV3, ResNet50, and EfficientNet-B2. These models are further enhanced by explainable AI (XAI) techniques to boost interpretability. The ArSL2018 and RGB Arabic Alphabets Sign Language (AASL) datasets are employed, with EfficientNet-B2 achieving peak accuracies of 99.48\% and 98.99\%, respectively. Key innovations include sophisticated data augmentation methods to mitigate class imbalance, implementation of stratified 5-fold cross-validation for better generalization, and the use of Grad-CAM for clear model decision transparency. The proposed system not only sets new benchmarks in recognition accuracy but also emphasizes interpretability, making it suitable for applications in healthcare, education, and inclusive communication technologies.
arxiv情報
著者 | Mazen Balat,Rewaa Awaad,Ahmed B. Zaky,Salah A. Aly |
発行日 | 2025-01-14 14:49:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google