要約
この研究では、標識のジェスチャーを秩序だった文字列のような言語として扱う軽量で堅牢な単語レベルのトルコの手話(TSL)認識モデルであるTSLFormerを提示します。
生のRGBまたは深度ビデオを使用する代わりに、この方法は3Dジョイントポジション(アーティキュレーションポイント)でのみ機能します。GoogleのMediapipeライブラリを使用して抽出されます。
これにより、重要なセマンティックジェスチャー情報を保存しながら、効率的な入力次元削減が作成されます。
私たちのアプローチは、手話からシーケンスへの翻訳としての手話認識を再検討します。これは、手話の言語の性質と自然言語処理における変圧器の成功に触発されました。
TSLFormerは自己触媒メカニズムを使用するため、ジェスチャーシーケンス内の時間的共起を効果的にキャプチャし、単語が展開するにつれて意味のあるモーションパターンを強調します。
36,000を超えるサンプルと227の異なる単語でATSLデータセットで評価されたTSLFormerは、最小限の計算コストで競争力のあるパフォーマンスを達成します。
これらの結果は、共同ベースの入力が、聴覚障害のある個人向けのリアルタイム、モバイル、および支援システムを有効にするのに十分であることを示しています。
要約(オリジナル)
This study presents TSLFormer, a light and robust word-level Turkish Sign Language (TSL) recognition model that treats sign gestures as ordered, string-like language. Instead of using raw RGB or depth videos, our method only works with 3D joint positions – articulation points – extracted using Google’s Mediapipe library, which focuses on the hand and torso skeletal locations. This creates efficient input dimensionality reduction while preserving important semantic gesture information. Our approach revisits sign language recognition as sequence-to-sequence translation, inspired by the linguistic nature of sign languages and the success of transformers in natural language processing. Since TSLFormer uses the self-attention mechanism, it effectively captures temporal co-occurrence within gesture sequences and highlights meaningful motion patterns as words unfold. Evaluated on the AUTSL dataset with over 36,000 samples and 227 different words, TSLFormer achieves competitive performance with minimal computational cost. These results show that joint-based input is sufficient for enabling real-time, mobile, and assistive communication systems for hearing-impaired individuals.
arxiv情報
著者 | Kutay Ertürk,Furkan Altınışık,İrem Sarıaltın,Ömer Nezih Gerek |
発行日 | 2025-05-14 16:43:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google