Weakly-supervised Fingerspelling Recognition in British Sign Language Videos

要約

この作業の目標は、英国手話 (BSL) でフィンガースペルを使用して署名された一連の文字を検出して認識することです。
以前の指綴り認識方法は、アメリカ手話 (ASL) とは非常に異なる手話アルファベット (たとえば、片手ではなく両手) を持つ BSL に焦点を当てていませんでした。
また、トレーニングには手動の注釈も使用します。
以前の方法とは対照的に、私たちの方法は、トレーニングのために字幕からの弱い注釈のみを使用します。
単純な機能類似性メソッドを使用して指の綴りの潜在的なインスタンスをローカライズし、字幕の単語をクエリして、署名者から対応する口頭の手がかりを検索することにより、これらのインスタンスに自動的に注釈を付けます。
このタスクに適応した Transformer アーキテクチャを提案し、複数仮説 CTC 損失関数を使用して、代替の注釈の可能性から学習します。
多段階のトレーニング アプローチを採用しており、トレーニング済みモデルの初期バージョンを使用してトレーニング データを拡張および強化してから、再トレーニングを行ってパフォーマンスを向上させます。
広範な評価を通じて、自動アノテーションの方法とモデル アーキテクチャを検証します。
さらに、手話研究をサポートするために、BSL フィンガースペル認識方法を評価するための 5K ビデオ クリップの人間の専門家による注釈付きテスト セットを提供します。

要約(オリジナル)

The goal of this work is to detect and recognize sequences of letters signed using fingerspelling in British Sign Language (BSL). Previous fingerspelling recognition methods have not focused on BSL, which has a very different signing alphabet (e.g., two-handed instead of one-handed) to American Sign Language (ASL). They also use manual annotations for training. In contrast to previous methods, our method only uses weak annotations from subtitles for training. We localize potential instances of fingerspelling using a simple feature similarity method, then automatically annotate these instances by querying subtitle words and searching for corresponding mouthing cues from the signer. We propose a Transformer architecture adapted to this task, with a multiple-hypothesis CTC loss function to learn from alternative annotation possibilities. We employ a multi-stage training approach, where we make use of an initial version of our trained model to extend and enhance our training data before re-training again to achieve better performance. Through extensive evaluations, we verify our method for automatic annotation and our model architecture. Moreover, we provide a human expert annotated test set of 5K video clips for evaluating BSL fingerspelling recognition methods to support sign language research.

arxiv情報

著者 K R Prajwal,Hannah Bull,Liliane Momeni,Samuel Albanie,Gül Varol,Andrew Zisserman
発行日 2022-11-16 15:02:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク