要約
ソーシャルグッドへの鍵として、連続手話認識(CSLR)は聴覚障害者のためのアクティブでアクセシブルなコミュニケーションの促進を目指している。現在のCSLR研究では、「ビデオクリップ-テキストグロス」間のマッピング関係を学習するために、クロスモダリティアライメント方式が採用されている。しかし、このローカルアライメント手法は、特にデータアノテーションが弱い場合、モダリティの文脈情報を無視し、視覚的特徴の汎化を直接的に低下させる。このため、我々は、「ビデオ-グロスシーケンス全体」のマッピングをモデル化することに焦点を当てた、新しいデノイジング-拡散グローバルアライメント方式(DDA)を提案する。DDAは部分ノイズ処理戦略とノイズ除去拡散オートエンコーダから構成される。前者はテキストモダリティの視覚モダリティへの効率的な誘導を達成するために用いられ、後者はノイズ除去の方法で2つのモダリティの大域的な位置合わせ情報を学習する。我々のDDAは、CSLRにおける視覚表現学習のための拡散モデルの実現可能性を確認する。3つの公開ベンチマークを用いた実験により、我々の手法が最先端の性能を達成することが実証された。さらに、提案手法は、他のCSLR手法を一般化するためのプラグアンドプレイ最適化となり得る。
要約(オリジナル)
As a key to social good, continuous sign language recognition (CSLR) aims to promote active and accessible communication for the hearing impaired. Current CSLR research adopts a cross-modality alignment scheme to learn the mapping relationship between ‘video clip-textual gloss’. However, this local alignment method, especially with weak data annotation, ignores the contextual information of modalities and directly reduces the generalization of visual features. To this end, we propose a novel Denoising-Diffusion global Alignment scheme (DDA), which focuses on modeling the mapping of the ‘entire video-gloss sequence’. DDA consists of a partial noising process strategy and a denoising-diffusion autoencoder. The former is used to achieve efficient guidance of the text modality to the visual modality; the latter learns the global alignment information of the two modalities in a denoising manner. Our DDA confirms the feasibility of diffusion models for visual representation learning in CSLR. Experiments on three public benchmarks demonstrate that our method achieves state-of-the-art performances. Furthermore, the proposed method can be a plug-and-play optimization to generalize other CSLR methods.
arxiv情報
著者 | Leming Guo,Wanli Xue,Ze Kang,Yuxi Zhou,Tiantian Yuan,Zan Gao,Shengyong Chen |
発行日 | 2024-02-05 17:15:26+00:00 |
arxivサイト | arxiv_id(pdf) |