Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies

要約

孤立した手話認識(ISLR)は、スケーラブルな手話技術にとって重要ですが、言語固有のアプローチは現在のモデルを制限します。
これに対処するために、言語間で一般化し、語彙を進化させるワンショット学習アプローチを提案します。
私たちの方法では、本質的な特徴に基づいて標識を埋め込み、目に見えない兆候の迅速で正確な認識を求めて密なベクトル検索を使用するモデルを前処理することが含まれます。
トレーニングセットとは異なる言語からの10,235のユニークな標識を含む大きな辞書で50.8%のワンショットMRRを含む、最新の結果を達成します。
私たちのアプローチは、言語とサポートセット間で堅牢であり、ISLRにスケーラブルで適応性のあるソリューションを提供します。
聴覚障害のある聴覚(DHH)コミュニティと共同作成されたこの方法は、実際のニーズと整合し、スケーラブルな手話認識を進めます。

要約(オリジナル)

Isolated Sign Language Recognition (ISLR) is crucial for scalable sign language technology, yet language-specific approaches limit current models. To address this, we propose a one-shot learning approach that generalises across languages and evolving vocabularies. Our method involves pretraining a model to embed signs based on essential features and using a dense vector search for rapid, accurate recognition of unseen signs. We achieve state-of-the-art results, including 50.8% one-shot MRR on a large dictionary containing 10,235 unique signs from a different language than the training set. Our approach is robust across languages and support sets, offering a scalable, adaptable solution for ISLR. Co-created with the Deaf and Hard of Hearing (DHH) community, this method aligns with real-world needs, and advances scalable sign language recognition.

arxiv情報

著者 Toon Vandendriessche,Mathieu De Coster,Annelies Lejon,Joni Dambre
発行日 2025-02-27 15:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク