SLGTformer: An Attention-Based Approach to Sign Language Recognition

要約

手話は、聴覚障害者や無口な人のコミュニケーション手段として好まれていますが、他の言語と同様に習得が難しく、難聴者や話すことができない人にとっては大きな障壁となります。
人の正面全体の外観が、特定の意味を決定し、伝えます。
ただし、この正面の外観は、人体のポーズの時系列として定量化でき、骨格キーポイントの時空間ダイナミクスの学習を通じて手話認識につながります。
分離されたグラフと一時的な自己注意のみに基づいて構築された、手話認識に対する新しい注意ベースのアプローチ、手話グラフ タイム トランスフォーマー (SLGTformer) を提案します。
SLGTformer はまず、時空間ポーズ シーケンスを空間グラフと時間ウィンドウに別々に分解します。
次に SLGTformer は、新しい学習可能グラフ相対位置エンコーディング (LGRPE) を活用して、人間の骨格のグラフ近傍コンテキストで空間的自己注意を導きます。
時間的次元をウィンドウ内およびウィンドウ間のダイナミクスとしてモデル化することにより、ローカルにグループ化された時間的注意 (LTA) とグローバルなサブサンプリングされた時間的注意 (GSTA) の組み合わせとして、Temporal Twin Self-Attention (TTSA) を導入します。
世界レベルのアメリカ手話 (WLASL) データセットに対する SLGTformer の有効性を実証し、キーポイント モダリティに対するアンサンブル フリーのアプローチで最先端のパフォーマンスを実現します。
コードは https://github.com/neilsong/slt で入手できます。

要約(オリジナル)

Sign language is the preferred method of communication of deaf or mute people, but similar to any language, it is difficult to learn and represents a significant barrier for those who are hard of hearing or unable to speak. A person’s entire frontal appearance dictates and conveys specific meaning. However, this frontal appearance can be quantified as a temporal sequence of human body pose, leading to Sign Language Recognition through the learning of spatiotemporal dynamics of skeleton keypoints. We propose a novel, attention-based approach to Sign Language Recognition exclusively built upon decoupled graph and temporal self-attention: the Sign Language Graph Time Transformer (SLGTformer). SLGTformer first deconstructs spatiotemporal pose sequences separately into spatial graphs and temporal windows. SLGTformer then leverages novel Learnable Graph Relative Positional Encodings (LGRPE) to guide spatial self-attention with the graph neighborhood context of the human skeleton. By modeling the temporal dimension as intra- and inter-window dynamics, we introduce Temporal Twin Self-Attention (TTSA) as the combination of locally-grouped temporal attention (LTA) and global sub-sampled temporal attention (GSTA). We demonstrate the effectiveness of SLGTformer on the World-Level American Sign Language (WLASL) dataset, achieving state-of-the-art performance with an ensemble-free approach on the keypoint modality. The code is available at https://github.com/neilsong/slt

arxiv情報

著者 Neil Song,Yu Xiang
発行日 2022-12-23 02:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク