FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones

要約

手話の機械理解の進歩は遅く、限られたデータによって妨げられています。
この論文では、さまざまな環境で Pixel 4A セルフィー カメラを使用し、有料で同意した聴覚障害者の手話者 147 名から収集した、モバイル テキスト入力のユースケースにあるアメリカ手話の指綴りデータセットである FSboard を紹介します。
指綴り認識は手話翻訳のほんの一部にすぎない不完全なソリューションですが、より広範な機能を備えた技術が開発されるにつれて、ろう者/難聴者の手話者に即座に利益をもたらす可能性があります。
長さが 300 万文字を超え、継続時間が 250 時間を超える FSboard は、これまでで 10 倍を超える最大の指綴り認識データセットです。
単純なベースラインとして、30 Hz MediaPipe ホリスティック ランドマーク入力を ByT5-Small に微調整し、固有のフレーズと署名者を含むテスト セットで 11.1% の文字誤り率 (CER) を達成しました。
フレーム レートを下げ、顔や体のランドマークを除外すると、この品質は徐々に低下します。これは、デバイス上でモデルをリアルタイムで実行できるようにするための最適化です。

要約(オリジナル)

Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time.

arxiv情報

著者 Manfred Georg,Garrett Tanzer,Saad Hassan,Maximus Shengelia,Esha Uboweja,Sam Sepah,Sean Forbes,Thad Starner
発行日 2024-07-22 17:20:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク