要約
ディープ ラーニングとコンピューター ビジョンの最近の進歩は、さまざまな状況で疎外されたコミュニティにサービスを提供するためにうまく活用されています。
そのような分野の 1 つは、聴覚障害者コミュニティの主要なコミュニケーション手段である手話です。
しかし、これまでのところ、研究努力と投資の大部分はアメリカ手話に向けられており、リソースの少ない手話、特にバングラ手話の研究活動は大幅に遅れています。
この研究論文では、40 単語にわたる 611 本のビデオで構成される新しい単語レベルのバングラ手話データセット – BdSL40 – を 2 つの異なるアプローチとともに紹介します。1 つは 3D 畳み込みニューラル ネットワーク モデルを使用し、もう 1 つは新しいグラフ ニューラル ネットワーク アプローチを使用します。
BdSL40 データセットの分類用。
これは単語レベルの BdSL 認識に関する最初の研究であり、データセットはバングラ手話辞典 (1997 年) を使用してインド手話 (ISL) から転写されたものです。
提案された GNN モデルは、89% の F1 スコアを達成しました。
この研究は、BdSL、西ベンガル手話、ISLの間の語彙的および意味論的な類似性が顕著であることと、文献にBdSLの単語レベルのデータセットが存在しないことを強調しています。
さらなる研究を促進するために、データセットとソースコードを公開します。
要約(オリジナル)
Recent advances in Deep Learning and Computer Vision have been successfully leveraged to serve marginalized communities in various contexts. One such area is Sign Language – a primary means of communication for the deaf community. However, so far, the bulk of research efforts and investments have gone into American Sign Language, and research activity into low-resource sign languages – especially Bangla Sign Language – has lagged significantly. In this research paper, we present a new word-level Bangla Sign Language dataset – BdSL40 – consisting of 611 videos over 40 words, along with two different approaches: one with a 3D Convolutional Neural Network model and another with a novel Graph Neural Network approach for the classification of BdSL40 dataset. This is the first study on word-level BdSL recognition, and the dataset was transcribed from Indian Sign Language (ISL) using the Bangla Sign Language Dictionary (1997). The proposed GNN model achieved an F1 score of 89%. The study highlights the significant lexical and semantic similarity between BdSL, West Bengal Sign Language, and ISL, and the lack of word-level datasets for BdSL in the literature. We release the dataset and source code to stimulate further research.
arxiv情報
著者 | Haz Sameen Shahgir,Khondker Salman Sayeed,Md Toki Tahmid,Tanjeem Azwad Zaman,Md. Zarif Ul Alam |
発行日 | 2024-01-22 18:52:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google