要約
この研究の目的は、連続手話認識 (CSLR) のための空間的および動的特徴を効果的に抽出することです。
これを達成するために、私たちは 2 つの経路の SlowFast ネットワークを利用します。このネットワークでは、各経路が異なる時間解像度で動作して、空間情報 (手の形、顔の表情) と動的情報 (動き) を別々にキャプチャします。
さらに、CSLR の特性に合わせて慎重に設計された 2 つの異なる特徴融合方法を紹介します。(1) 双方向特徴融合 (BFF)。動的セマンティクスから空間セマンティクスへの、またはその逆の変換を容易にします。
(2) パスウェイ機能拡張 (PFE)。追加の推論時間の必要性を回避しながら、補助サブネットワークを通じて動的および空間表現を強化します。
その結果、私たちのモデルは空間表現と動的表現を並行してさらに強化します。
提案されたフレームワークが、PHOENIX14、PHOENIX14-T、CSL-Daily などの一般的な CSLR データセットに対する現在の最先端のパフォーマンスを上回ることを実証します。
要約(オリジナル)
The objective of this work is the effective extraction of spatial and dynamic features for Continuous Sign Language Recognition (CSLR). To accomplish this, we utilise a two-pathway SlowFast network, where each pathway operates at distinct temporal resolutions to separately capture spatial (hand shapes, facial expressions) and dynamic (movements) information. In addition, we introduce two distinct feature fusion methods, carefully designed for the characteristics of CSLR: (1) Bi-directional Feature Fusion (BFF), which facilitates the transfer of dynamic semantics into spatial semantics and vice versa; and (2) Pathway Feature Enhancement (PFE), which enriches dynamic and spatial representations through auxiliary subnetworks, while avoiding the need for extra inference time. As a result, our model further strengthens spatial and dynamic representations in parallel. We demonstrate that the proposed framework outperforms the current state-of-the-art performance on popular CSLR datasets, including PHOENIX14, PHOENIX14-T, and CSL-Daily.
arxiv情報
著者 | Junseok Ahn,Youngjoon Jang,Joon Son Chung |
発行日 | 2023-09-21 17:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google