Toward American Sign Language Processing in the Real World: Data, Tasks, and Methods

要約

ジェスチャーを通じて意味を伝える手話は、聴覚障害者の間での主要なコミュニケーション手段です。
自然環境で手話を認識するには、照明、背景の乱雑さ、手話者の特性のばらつきなどの要因により、大きな課題が生じます。
この論文では、インターネットから収集した手話ビデオを使用して、野外での自動手話処理を研究します。
この論文は、新しいデータセット、タスク、およびメソッドに貢献します。
この論文のほとんどの章は、手話の重要な要素であるにもかかわらず、これまでの研究では広く研究されていなかった指綴りに関連するタスクを扱っています。
実際に公開されている 3 つの新しい大規模 ASL データセット、ChicagoFSWild、ChicagoFSWild+、および OpenASL を紹介します。
ChicagoFSWild と ChicagoFSWild+ を使用して、指綴りシーケンスをテキストに転写することで構成される指綴り認識に取り組みます。
私は、明示的な手を検出せずに生のビデオからの認識を可能にする、反復的な注意に基づくエンドツーエンドのアプローチを提案します。
さらに、手の形と口の動きを共同モデリングする Conformer ベースのネットワークを使用すると、パフォーマンスを人間のパフォーマンスに近づけることができることを示します。
次に、実際の指綴りベースのアプリケーションを構築するための 2 つのタスク、つまり指綴りの検出と検索を提案します。
フィンガースペルの検出については、一連の評価指標とマルチタスク トレーニングによる新しい検出モデルを導入します。
生の手話ビデオ内の指つづりのキーワードを検索する問題に対処するために、指つづりのセグメントを共同でローカライズしてテキストと照合する新しい方法を提案します。
最後に、OpenASL に基づく大規模語彙のオープンドメイン手話翻訳のベンチマークについて説明します。
現実的な設定における手話翻訳の課題に対処するために、口と手の形の特徴の事前トレーニングと融合のための口実タスクとしての手話検索を含む一連の技術を提案します。

要約(オリジナル)

Sign language, which conveys meaning through gestures, is the chief means of communication among deaf people. Recognizing sign language in natural settings presents significant challenges due to factors such as lighting, background clutter, and variations in signer characteristics. In this thesis, I study automatic sign language processing in the wild, using signing videos collected from the Internet. This thesis contributes new datasets, tasks, and methods. Most chapters of this thesis address tasks related to fingerspelling, an important component of sign language and yet has not been studied widely by prior work. I present three new large-scale ASL datasets in the wild: ChicagoFSWild, ChicagoFSWild+, and OpenASL. Using ChicagoFSWild and ChicagoFSWild+, I address fingerspelling recognition, which consists of transcribing fingerspelling sequences into text. I propose an end-to-end approach based on iterative attention that allows recognition from a raw video without explicit hand detection. I further show that using a Conformer-based network jointly modeling handshape and mouthing can bring performance close to that of humans. Next, I propose two tasks for building real-world fingerspelling-based applications: fingerspelling detection and search. For fingerspelling detection, I introduce a suite of evaluation metrics and a new detection model via multi-task training. To address the problem of searching for fingerspelled keywords in raw sign language videos, we propose a novel method that jointly localizes and matches fingerspelling segments to text. Finally, I will describe a benchmark for large-vocabulary open-domain sign language translation based on OpenASL. To address the challenges of sign language translation in realistic settings, we propose a set of techniques including sign search as a pretext task for pre-training and fusion of mouthing and handshape features.

arxiv情報

著者 Bowen Shi
発行日 2023-08-23 20:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク