要約
手話は、世界中で約 7,000 万人の聴覚障害者によって主言語として使用されています。
しかし、ほとんどの通信テクノロジーは話し言葉と書き言葉で動作するため、アクセスに不平等が生じます。
この問題への取り組みを支援するために、私たちは ASL Citizen をリリースしました。これは、同意を得て収集され、さまざまな環境で 52 人の手話者によって撮影された 2,731 個の異なる手話の 83,399 本のビデオを含む、初のクラウドソーシングによる分離手話認識 (ISLR) データセットです。
私たちは、このデータセットをアメリカ手話 (ASL) の手話辞書検索に使用することを提案します。この場合、ユーザーは Web カメラに向かって手話を示し、一致する手話を辞書から取得します。
私たちのデータセットを使用して教師付き機械学習分類器をトレーニングすると、辞書検索に関連するメトリクスの最先端が進歩し、63% の精度と 91% の 10 時の再現率が達成されることを示します。この結果は、すべてのユーザーのビデオで評価されました。
トレーニング セットや検証セットには存在しません。
この記事のアクセス可能な PDF は、次のリンクから入手できます: https://aashakadesai.github.io/research/ASLCitizen_arxiv_updated.pdf
要約(オリジナル)
Sign languages are used as a primary language by approximately 70 million D/deaf people world-wide. However, most communication technologies operate in spoken and written languages, creating inequities in access. To help tackle this problem, we release ASL Citizen, the first crowdsourced Isolated Sign Language Recognition (ISLR) dataset, collected with consent and containing 83,399 videos for 2,731 distinct signs filmed by 52 signers in a variety of environments. We propose that this dataset be used for sign language dictionary retrieval for American Sign Language (ASL), where a user demonstrates a sign to their webcam to retrieve matching signs from a dictionary. We show that training supervised machine learning classifiers with our dataset advances the state-of-the-art on metrics relevant for dictionary retrieval, achieving 63% accuracy and a recall-at-10 of 91%, evaluated entirely on videos of users who are not present in the training or validation sets. An accessible PDF of this article is available at the following link: https://aashakadesai.github.io/research/ASLCitizen_arxiv_updated.pdf
arxiv情報
著者 | Aashaka Desai,Lauren Berger,Fyodor O. Minakov,Vanessa Milan,Chinmay Singh,Kriston Pumphrey,Richard E. Ladner,Hal Daumé III,Alex X. Lu,Naomi Caselli,Danielle Bragg |
発行日 | 2023-06-20 03:20:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google