Slovo: Russian Sign Language Dataset

要約

手話認識タスクの主な課題の 1 つは、難聴社会と聴者社会の間にあるギャップにより、適切なデータセットを収集することが難しいことです。
また、各国の手話は大きく異なるため、各国ごとに新たなデータを作成する必要があります。
このペーパーでは、クラウドソーシング プラットフォームを使用して作成されたロシア手話 (RSL) ビデオ データセット Slovo について説明します。
データセットには 20,000 件の FullHD 録画が含まれており、194 人の署名者が受信した分離された RSL ジェスチャの 1,000 クラスに分割されています。
また、次のデモ アプリケーションでは、データ収集からビデオ アノテーションまでのデータセット作成パイプライン全体も提供しています。
Slovo の教育能力を実証するために、いくつかのニューラル ネットワークが Slovo 上でトレーニングおよび評価されます。
提案されたデータと事前トレーニングされたモデルは公開されています。

要約(オリジナル)

One of the main challenges of the sign language recognition task is the difficulty of collecting a suitable dataset due to the gap between hard-of-hearing and hearing societies. In addition, the sign language in each country differs significantly, which obliges the creation of new data for each of them. This paper presents the Russian Sign Language (RSL) video dataset Slovo, produced using crowdsourcing platforms. The dataset contains 20,000 FullHD recordings, divided into 1,000 classes of isolated RSL gestures received by 194 signers. We also provide the entire dataset creation pipeline, from data collection to video annotation, with the following demo application. Several neural networks are trained and evaluated on the Slovo to demonstrate its teaching ability. Proposed data and pre-trained models are publicly available.

arxiv情報

著者 Alexander Kapitanov,Karina Kvanchiani,Alexander Nagaev,Elizaveta Petrova
発行日 2024-03-12 14:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク