A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision

要約

この研究では、私たちの目標は 2 つあります。大語彙連続手話認識 (CSLR) と手話検索です。
この目的を達成するために、署名シーケンスを取り込み、手話言語と音声言語テキストの間の結合埋め込みスペースに出力できるマルチタスク Transformer モデル CSLR2 を導入します。
語彙が多い設定で CSLR 評価を有効にするために、手動で収集された新しいデータセット アノテーションを導入します。
これらは 6 時間のテスト ビデオに継続的な標識レベルの注釈を提供し、一般に公開される予定です。
損失関数を慎重に選択することで、CSLR タスクと取得タスクの両方のモデルをトレーニングすることがパフォーマンスの点で相互に有益であることを実証します。取得ではコンテキストを提供することで CSLR のパフォーマンスが向上し、CSLR はよりきめ細かい監視で取得を向上させます。
さらに、BOBSL などの大規模語彙データセット、つまり記号レベルの疑似ラベルと英語字幕からの弱くてノイズの多い監視を活用する利点を示します。
私たちのモデルは、両方のタスクにおいて以前の最先端技術を大幅に上回っています。

要約(オリジナル)

In this work, our goals are two fold: large-vocabulary continuous sign language recognition (CSLR), and sign language retrieval. To this end, we introduce a multi-task Transformer model, CSLR2, that is able to ingest a signing sequence and output in a joint embedding space between signed language and spoken language text. To enable CSLR evaluation in the large-vocabulary setting, we introduce new dataset annotations that have been manually collected. These provide continuous sign-level annotations for six hours of test videos, and will be made publicly available. We demonstrate that by a careful choice of loss functions, training the model for both the CSLR and retrieval tasks is mutually beneficial in terms of performance — retrieval improves CSLR performance by providing context, while CSLR improves retrieval with more fine-grained supervision. We further show the benefits of leveraging weak and noisy supervision from large-vocabulary datasets such as BOBSL, namely sign-level pseudo-labels, and English subtitles. Our model significantly outperforms the previous state of the art on both tasks.

arxiv情報

著者 Charles Raude,K R Prajwal,Liliane Momeni,Hannah Bull,Samuel Albanie,Andrew Zisserman,Gül Varol
発行日 2024-05-16 17:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク