要約
私たちの考え、感情、アイデアを互いに表現できることは、人間の生存と発展にとって不可欠です。
聴覚が主要なコミュニケーション手段である環境では、人口のかなりの部分がコミュニケーション障害に遭遇し、日常活動に悪影響を及ぼします。
効果的に機能する自律的な手話認識システムは、この障壁を大幅に減らすことができます。
この問題に対処するために、15 の異なるカテゴリの 115 のグロスと 350 の孤立した単語で構成される、マルチビュー バングラ手話データセット (MV-BSL) という大規模なデータセットを提案しました。
さらに、手話でコミュニケーションする個人のポーズ情報の時間的ダイナミクスをモデル化する、注意ベースの双方向ゲート リカレント ユニット (Bi-GRU) アーキテクチャを備えたリカレント ニューラル ネットワーク (RNN) を構築しました。
人間の体の外観や環境情報を無視し、実際の動きの情報をキャプチャするため、兆候パターンの分析に効果的であることが証明されている人間のポーズ情報により、提案されたモデルが最先端の精度でよりシンプルかつ高速になります。
要約(オリジナル)
Being able to express our thoughts, feelings, and ideas to one another is essential for human survival and development. A considerable portion of the population encounters communication obstacles in environments where hearing is the primary means of communication, leading to unfavorable effects on daily activities. An autonomous sign language recognition system that works effectively can significantly reduce this barrier. To address the issue, we proposed a large scale dataset namely Multi-View Bangla Sign Language dataset (MV- BSL) which consist of 115 glosses and 350 isolated words in 15 different categories. Furthermore, We have built a recurrent neural network (RNN) with attention based bidirectional gated recurrent units (Bi-GRU) architecture that models the temporal dynamics of the pose information of an individual communicating through sign language. Human pose information, which has proven effective in analyzing sign pattern as it ignores people’s body appearance and environmental information while capturing the true movement information makes the proposed model simpler and faster with state-of-the-art accuracy.
arxiv情報
著者 | Md Shamimul Islam,A. J. M. Akhtarujjaman Joha,Md Nur Hossain,Md Mahedi Hasan |
発行日 | 2023-02-22 18:55:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google