HandReader: Advanced Techniques for Efficient Fingerspelling Recognition

要約

指の貫通は、手話(SL)の重要な要素であり、署名中の高速手の動きを特徴とする固有名詞の解釈を可能にします。
指の認識に関する以前の研究は、ビデオの時間的次元の処理に焦点を当てていますが、これらのアプローチの精度を改善する余地は残っています。
このホワイトペーパーでは、指の発見認識タスクに対処するために設計された3つのアーキテクチャのグループであるハンドリーダーを紹介します。
HandReader $ _ {RGB} $は、新しい時間の長さのビデオからRGB機能を処理し、重要な順次情報を保存しながらRGB機能を処理するために、新しい一時的なシフト適応モジュール(TSAM)を採用しています。
HandReader $ _ {KP} $は、キーポイントで動作する提案された時間ポーズエンコーダー(TPE)に基づいて構築されています。
バッチ内のこのようなキーポイント構成により、エンコーダーは、時間的および空間的情報を利用し、キーポイント座標を蓄積し、2Dおよび3Dの畳み込み層をエンコーダに渡すことができます。
また、RGBおよびKeypointモダリティの恩恵を受けるためのジョイントエンコーダーを備えたHandreader_RGB+KP-アーキテクチャも紹介します。
各ハンドリーダーモデルには明確な利点があり、ChicagofwildおよびChicagofswild+データセットで最新の結果を達成しています。
さらに、モデルは、この論文で紹介したロシアの指の浸透Znakiの最初のオープンデータセットで高性能を示しています。
Znakiデータセットとハンドリーダーの事前訓練モデルは公開されています。

要約(オリジナル)

Fingerspelling is a significant component of Sign Language (SL), allowing the interpretation of proper names, characterized by fast hand movements during signing. Although previous works on fingerspelling recognition have focused on processing the temporal dimension of videos, there remains room for improving the accuracy of these approaches. This paper introduces HandReader, a group of three architectures designed to address the fingerspelling recognition task. HandReader$_{RGB}$ employs the novel Temporal Shift-Adaptive Module (TSAM) to process RGB features from videos of varying lengths while preserving important sequential information. HandReader$_{KP}$ is built on the proposed Temporal Pose Encoder (TPE) operated on keypoints as tensors. Such keypoints composition in a batch allows the encoder to pass them through 2D and 3D convolution layers, utilizing temporal and spatial information and accumulating keypoints coordinates. We also introduce HandReader_RGB+KP – architecture with a joint encoder to benefit from RGB and keypoint modalities. Each HandReader model possesses distinct advantages and achieves state-of-the-art results on the ChicagoFSWild and ChicagoFSWild+ datasets. Moreover, the models demonstrate high performance on the first open dataset for Russian fingerspelling, Znaki, presented in this paper. The Znaki dataset and HandReader pre-trained models are publicly available.

arxiv情報

著者 Pavel Korotaev,Petr Surovtsev,Alexander Kapitanov,Karina Kvanchiani,Aleksandr Nagaev
発行日 2025-05-15 13:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク