Towards Online Sign Language Recognition and Translation

要約

手話認識の目的は、聴覚障害者と健聴者との間のコミュニケーションのギャップを埋めることです。
これまでの多くの研究では、確立されたコネクショニスト時間分類 (CTC) 損失を使用してモデルをトレーニングしています。
推論段階では、CTC ベースのモデルは通常、標識ビデオ全体を入力として受け取り、予測を行います。
このタイプの推論スキームはオフライン認識と呼ばれます。
対照的に、成熟した音声認識システムは話された言葉をその場で効率的に認識できますが、手話認識は実用的なオンライン ソリューションが不足しているため、まだ不十分です。
この取り組みでは、このギャップを埋めるための第一歩を踏み出します。
私たちのアプローチは 3 つのフェーズで構成されます。1) ターゲット手話データセットに存在するすべての光沢を網羅する手話辞書を開発します。
2) 従来の分類損失と新しい顕著性損失の両方を使用して、拡張標識上で孤立した手話認識モデルをトレーニングします。
3) 入力標識シーケンスに対してスライディング ウィンドウ アプローチを採用し、各標識クリップをオンライン認識用に適切に最適化されたモデルに供給します。
さらに、オンライン認識モデルを拡張して、オフライン モデルのパフォーマンスを向上させたり、認識モデルに光沢からテキストへのネットワークを追加することでオンライン翻訳をサポートしたりすることができます。
当社のオンライン フレームワークを、これまで最高のパフォーマンスを発揮していたオフライン モデル TwoStream-SLR と統合することで、Phoenix-2014、Phoenix-2014T、CSL-Daily の 3 つのベンチマークで新たな最先端のパフォーマンスを実現しました。
コードとモデルは https://github.com/FangyunWei/SLRT で入手できます。

要約(オリジナル)

The objective of sign language recognition is to bridge the communication gap between the deaf and the hearing. Numerous previous works train their models using the well-established connectionist temporal classification (CTC) loss. During the inference stage, the CTC-based models typically take the entire sign video as input to make predictions. This type of inference scheme is referred to as offline recognition. In contrast, while mature speech recognition systems can efficiently recognize spoken words on the fly, sign language recognition still falls short due to the lack of practical online solutions. In this work, we take the first step towards filling this gap. Our approach comprises three phases: 1) developing a sign language dictionary encompassing all glosses present in a target sign language dataset; 2) training an isolated sign language recognition model on augmented signs using both conventional classification loss and our novel saliency loss; 3) employing a sliding window approach on the input sign sequence and feeding each sign clip to the well-optimized model for online recognition. Furthermore, our online recognition model can be extended to boost the performance of any offline model, and to support online translation by appending a gloss-to-text network onto the recognition model. By integrating our online framework with the previously best-performing offline model, TwoStream-SLR, we achieve new state-of-the-art performance on three benchmarks: Phoenix-2014, Phoenix-2014T, and CSL-Daily. Code and models will be available at https://github.com/FangyunWei/SLRT

arxiv情報

著者 Ronglai Zuo,Fangyun Wei,Brian Mak
発行日 2024-01-10 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク