Automatic dense annotation of large-vocabulary sign language videos

要約

近年、手話研究者は、大規模な学習データとして、(i) 連続手話の映像、(ii) 音声に対応する字幕からなる手話通訳付きテレビ放送に着目しています。このような手話通訳テレビ放送の利用にあたっては、手話注釈がないことが重要な課題となっています。このような弱い対応付けのデータを利用した従来の研究では、字幕中のキーワードと個々の手話の間の疎な対応付けしか見出せなかった。本研究では、自動アノテーションの密度を大幅に向上させる、シンプルでスケーラブルなフレームワークを提案する。我々の貢献は以下の通りである。(1)同義語と字幕-手話アライメントの利用により、従来のアノテーション手法を大幅に改善する。(2)手話認識モデルからの擬似ラベリングの価値を示し、手話スポッティングの方法とする。(3)ドメイン内模範事例に基づき、既知および未知のクラスのアノテーション数を増やす新しい手法を提案する。(4) BOBSL BSL手話コーパスに、670Kから5Mに信頼できる自動アノテーション数を増加させた。これらのアノテーションは、手話研究者コミュニティを支援するために一般に公開されています。

要約(オリジナル)

Recently, sign language researchers have turned to sign language interpreted TV broadcasts, comprising (i) a video of continuous signing and (ii) subtitles corresponding to the audio content, as a readily available and large-scale source of training data. One key challenge in the usability of such data is the lack of sign annotations. Previous work exploiting such weakly-aligned data only found sparse correspondences between keywords in the subtitle and individual signs. In this work, we propose a simple, scalable framework to vastly increase the density of automatic annotations. Our contributions are the following: (1) we significantly improve previous annotation methods by making use of synonyms and subtitle-signing alignment; (2) we show the value of pseudo-labelling from a sign recognition model as a way of sign spotting; (3) we propose a novel approach for increasing our annotations of known and unknown classes based on in-domain exemplars; (4) on the BOBSL BSL sign language corpus, we increase the number of confident automatic annotations from 670K to 5M. We make these annotations publicly available to support the sign language research community.

arxiv情報

著者 Liliane Momeni,Hannah Bull,K R Prajwal,Samuel Albanie,Gül Varol,Andrew Zisserman
発行日 2022-08-04 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク