MM-WLAuslan: Multi-View Multi-Modal Word-Level Australian Sign Language Recognition Dataset

要約

分離手話認識 (ISLR) は、個々の手話の光沢を識別することに重点を置いています。
地理的地域にわたる手話の多様性を考慮すると、地域固有の ISLR データセットを開発することは、コミュニケーションと研究をサポートするために非常に重要です。
オースラン語はオーストラリア固有の手話言語であるため、ISLR タスク用の専用の大規模な単語レベルのデータセットがまだありません。
このギャップを埋めるために、MM-WLAuslan と呼ばれる、\underline{\textbf{最初}}の大規模なマルチビュー、マルチモーダル、単語レベルのオーストラリア手話認識データセットを厳選しました。
他の公的に利用可能なデータセットと比較して、MM-WLAuslan には 3 つの重要な利点があります。(1) 最大量のデータ、(2) 最も広範な語彙、(3) 最も多様なマルチモーダル カメラ ビュー。
具体的には、スタジオ環境で 73 人の署名者が提示した、一般的に使用される 3,215 のオースラン語の光沢をカバーする 282,000 以上の署名ビデオを録画します。
さらに、撮影システムには 2 つの異なるタイプのカメラ、つまり 3 台の Kinect-V2 カメラと 1 台の RealSense カメラが含まれています。
モデルの前半分を中心に半球状にカメラを配置し、4 つのカメラすべてを使用して同時にビデオを録画します。
さらに、マルチビュー、クロスカメラ、クロスビューなど、MM-WLAuslan のさまざまなマルチモーダル ISLR 設定について、最先端の方法を使用して結果をベンチマークします。
実験結果は、MM-WLAuslan が困難な ISLR データセットであることを示しており、このデータセットがオースランの発展と世界中の手話の進歩に貢献することを期待しています。
すべてのデータセットとベンチマークは MM-WLAuslan で入手できます。

要約(オリジナル)

Isolated Sign Language Recognition (ISLR) focuses on identifying individual sign language glosses. Considering the diversity of sign languages across geographical regions, developing region-specific ISLR datasets is crucial for supporting communication and research. Auslan, as a sign language specific to Australia, still lacks a dedicated large-scale word-level dataset for the ISLR task. To fill this gap, we curate \underline{\textbf{the first}} large-scale Multi-view Multi-modal Word-Level Australian Sign Language recognition dataset, dubbed MM-WLAuslan. Compared to other publicly available datasets, MM-WLAuslan exhibits three significant advantages: (1) the largest amount of data, (2) the most extensive vocabulary, and (3) the most diverse of multi-modal camera views. Specifically, we record 282K+ sign videos covering 3,215 commonly used Auslan glosses presented by 73 signers in a studio environment. Moreover, our filming system includes two different types of cameras, i.e., three Kinect-V2 cameras and a RealSense camera. We position cameras hemispherically around the front half of the model and simultaneously record videos using all four cameras. Furthermore, we benchmark results with state-of-the-art methods for various multi-modal ISLR settings on MM-WLAuslan, including multi-view, cross-camera, and cross-view. Experiment results indicate that MM-WLAuslan is a challenging ISLR dataset, and we hope this dataset will contribute to the development of Auslan and the advancement of sign languages worldwide. All datasets and benchmarks are available at MM-WLAuslan.

arxiv情報

著者 Xin Shen,Heming Du,Hongwei Sheng,Shuyun Wang,Hui Chen,Huiqiang Chen,Zhuojie Wu,Xiaobiao Du,Jiaying Ying,Ruihan Lu,Qingzheng Xu,Xin Yu
発行日 2024-10-25 11:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク