要約
多くの連続手話認識 (CSLR) 研究では、グローバルなコンテキストを捕捉する強力な能力により、シーケンス モデリングにトランスフォーマー ベースのアーキテクチャが採用されています。
それにもかかわらず、トランスフォーマーのコア モジュールとして機能するバニラ セルフ アテンションは、すべてのタイム ステップにわたる加重平均を計算します。
したがって、サインビデオのローカル時間セマンティクスが完全に活用されていない可能性があります。
この研究では、ビデオ内のグロス内のフレーム間の関係と、グロス間の意味論的および文法的依存関係を活用するために、イントラインターグロスアテンションモジュールと呼ばれる、手話認識研究における新しいモジュールを導入します。
イントラグロス アテンション モジュールでは、ビデオが同じサイズのチャンクに分割され、セルフ アテンション メカニズムが各チャンク内に適用されます。
この局所的なセルフアテンションにより、複雑さが大幅に軽減され、非相対フレームを考慮することによって発生するノイズが排除されます。
光沢間アテンション モジュールでは、最初に時間次元に沿った平均プーリングによって各光沢チャンク内のチャンク レベルの特徴を集約します。
その後、マルチヘッド セルフ アテンションがすべてのチャンク レベルの特徴に適用されます。
署名者と環境の相互作用が重要ではないことを考慮して、セグメンテーションを利用してビデオの背景を削除します。
これにより、提案されたモデルの焦点を署名者に向けることができます。
PHOENIX-2014 ベンチマーク データセットの実験結果は、私たちの方法が事前知識なしでエンドツーエンドの方法で手話の特徴を効果的に抽出し、CSLR の精度を向上させ、単語誤り率 (WER) 20.4 を達成できることを示しています。
このテスト セットは、追加の監視を使用する最先端のテスト セットと比較して優れた結果をもたらします。
要約(オリジナル)
Many continuous sign language recognition (CSLR) studies adopt transformer-based architectures for sequence modeling due to their powerful capacity for capturing global contexts. Nevertheless, vanilla self-attention, which serves as the core module of the transformer, calculates a weighted average over all time steps; therefore, the local temporal semantics of sign videos may not be fully exploited. In this study, we introduce a novel module in sign language recognition studies, called intra-inter gloss attention module, to leverage the relationships among frames within glosses and the semantic and grammatical dependencies between glosses in the video. In the intra-gloss attention module, the video is divided into equally sized chunks and a self-attention mechanism is applied within each chunk. This localized self-attention significantly reduces complexity and eliminates noise introduced by considering non-relative frames. In the inter-gloss attention module, we first aggregate the chunk-level features within each gloss chunk by average pooling along the temporal dimension. Subsequently, multi-head self-attention is applied to all chunk-level features. Given the non-significance of the signer-environment interaction, we utilize segmentation to remove the background of the videos. This enables the proposed model to direct its focus toward the signer. Experimental results on the PHOENIX-2014 benchmark dataset demonstrate that our method can effectively extract sign language features in an end-to-end manner without any prior knowledge, improve the accuracy of CSLR, and achieve the word error rate (WER) of 20.4 on the test set which is a competitive result compare to the state-of-the-art which uses additional supervisions.
arxiv情報
著者 | Hossein Ranjbar,Alireza Taheri |
発行日 | 2024-06-26 13:21:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google