CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment

要約

手話認識 (SLR) は、手話ビデオにテキストのグロスとして注釈を付ける、監視が弱いタスクです。
最近の研究では、利用可能な大規模な手話データセットの不足によって引き起こされる不十分なトレーニングが、SLR の主なボトルネックになることが示されています。
そのため、大部分の SLR 作品は、事前トレーニング済みのビジュアル モジュールを採用し、2 つの主流ソリューションを開発しています。
マルチストリーム アーキテクチャはマルチキュー ビジュアル機能を拡張し、現在の SOTA パフォーマンスを実現しますが、複雑な設計が必要であり、潜在的なノイズが発生する可能性があります。
あるいは、ビジュアル モダリティとテキスト モダリティ間の明示的なクロスモーダル アラインメントを使用する高度なシングル キュー SLR フレームワークは、シンプルで効果的であり、マルチ キュー フレームワークと競合する可能性があります。
この作業では、視覚と言語の両方のモダリティの事前訓練された知識を完全に探索するために、SLR の新しい対照的な視覚テキスト変換、CVT-SLR を提案します。
単一キューのクロスモーダル アラインメント フレームワークに基づいて、完全な事前トレーニング済み言語モジュールを導入しながら、事前トレーニング済みのコンテキスト知識用の変分オートエンコーダー (VAE) を提案します。
VAE は、視覚的モダリティとテキスト モダリティを暗黙的に調整しながら、従来のコンテキスト モジュールとして事前にトレーニングされたコンテキスト知識の恩恵を受けます。
一方,対照的なクロスモーダルアラインメントアルゴリズムを提案して,明示的一貫性制約をさらに強化した。
最も人気のある 2 つの公開データセット PHOENIX-2014 と PHOENIX-2014T で実施された広範な実験では、提案された SLR フレームワークが既存の単一キュー方法よりも一貫して優れているだけでなく、SOTA マルチキュー方法よりも優れていることが示されています。

要約(オリジナル)

Sign language recognition (SLR) is a weakly supervised task that annotates sign videos as textual glosses. Recent studies show that insufficient training caused by the lack of large-scale available sign language datasets becomes the main bottleneck for SLR. The majority of SLR works thereby adopt pretrained visual modules and develop two mainstream solutions. The multi-stream architectures extend multi-cue visual features, yielding the current SOTA performances but requiring complex designs and might introduce potential noise. Alternatively, the advanced single-cue SLR frameworks using explicit cross-modal alignment between visual and textual modalities are simple and effective, potentially competitive with the multi-cue framework. In this work, we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained knowledge of both the visual and language modalities. Based on the single-cue cross-modal alignment framework, we propose a variational autoencoder (VAE) for pretrained contextual knowledge while introducing the complete pretrained language module. The VAE implicitly aligns visual and textual modalities while benefiting from pretrained contextual knowledge as the traditional contextual module. Meanwhile, a contrastive cross-modal alignment algorithm is proposed to further enhance the explicit consistency constraints. Extensive experiments conducted on the two most popular public datasets, PHOENIX-2014 and PHOENIX-2014T, demonstrate that our proposed SLR framework not only consistently outperforms existing single-cue methods but even outperforms SOTA multi-cue methods.

arxiv情報

著者 Jiangbin Zheng,Yile Wang,Cheng Tan,Siyuan Li,Ge Wang,Jun Xia,Yidong Chen,Stan Z. Li
発行日 2023-03-21 13:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク