要約
手話の機械学習はデータがボトルネックとなっています。
この論文では、アメリカ手話 (ASL) ビデオとそれに付随する YouTube からの英語キャプションの大規模なオープンドメイン コーパスである YouTube-ASL を紹介します。
YouTube-ASL は、約 1,000 時間のビデオと 2,500 人を超える一意の署名者を備えており、以前の最大の ASL データセットと比較して、規模が約 3 倍、一意の署名者が約 10 倍になっています。
YouTube-ASL で ASL から英語への翻訳のベースライン モデルをトレーニングし、How2Sign で評価します。そこで、新しく微調整された 12.39 BLEU の最先端技術を達成し、初めてゼロショットの結果を報告します。
要約(オリジナル)
Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.
arxiv情報
著者 | David Uthus,Garrett Tanzer,Manfred Georg |
発行日 | 2023-06-27 02:44:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google