Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition

要約

自動手話 (SL) 認識は、コンピューター ビジョン コミュニティにおける重要なタスクです。
堅牢な SL 認識システムを構築するには、特にインド手話 (ISL) では不足しているかなりの量のデータが必要です。
本稿では、大規模な分離ISLデータセットとスケルトングラフ構造に基づく新しいSL認識モデルを提案します。
このデータセットは、20 名 (男性 10 名、女性 10 名) の聴覚障害のある成人の署名者によって記録された、聴覚障害者コミュニティで日常的に使用される 2,002 の一般的な単語をカバーしています (40033 個のビデオを含む)。
我々は、人間の上半身の骨格グラフ構造を利用して、SL認識モデル、すなわち階層的ウィンドウグラフアテンションネットワーク(HWGAT)を提案する。
HWGAT は、人間の骨格グラフ構造によって引き起こされるさまざまな身体部分に注目することで、特徴的な動きを捕捉しようとします。
提案されたデータセットの有用性とモデルの有用性は、広範な実験を通じて評価されます。
提案されたモデルを提案されたデータセットで事前トレーニングし、さまざまな手話データセットにわたって微調整した結果、既存の状態と比較して、INCLUDE、LSA64、AUTSL、および WLASL のパフォーマンスがそれぞれ 1.10、0.46、0.78、および 6.84 パーセント ポイント向上しました。
-最先端のスケルトンベースのモデル。

要約(オリジナル)

Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we propose a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2,002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph structure. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph structure. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the proposed dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art skeleton-based models.

arxiv情報

著者 Suvajit Patra,Arkadip Maitra,Megha Tiwari,K. Kumaran,Swathy Prabhu,Swami Punyeshwarananda,Soumitra Samanta
発行日 2024-07-19 11:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク