要約
現在の手話機械の翻訳システムは、標識をテキストに変換するために、手の動き、表情と身体の姿勢、自然言語処理の認識に依存しています。
最近のアプローチでは、トランスアーキテクチャを使用して、位置エンコーディングを介して長距離依存関係をモデル化しています。
しかし、それらは、高フレームレートでキャプチャされたジェスチャー間の細かく密接な短距離の時間的依存性を認識する際の精度がありません。
さらに、彼らの高い計算の複雑さは、非効率的なトレーニングにつながります。
これらの問題を緩和するために、ゲーティングメカニズムを介した機能抽出と適応機能の重み付けのためのコンポーネントを組み込んだアダプティブトランス(ADAT)を提案します。
ADATを評価するために、最初の公共医療アメリカの手話データセットであるMedaslを紹介します。
サインツーグロスからテキストへの実験では、ADATはエンコーダデコーダートランスを上回り、BLEU-4の精度を0.1%改善しながら、トレーニング時間をPHOENIX14Tで14.33%、MEDASLで3.24%削減します。
サインツーテキスト実験では、精度を8.7%向上させ、Phoenix14Tでトレーニング時間を2.8%削減し、MEDASLでの精度が4.7%高く、7.17%のトレーニングを達成します。
サインツーテキストのエンコーダーのみおよびデコーダーのみのベースラインと比較して、ADATは、デュアルストリーム構造のために最大12.1%遅くなっているにもかかわらず、少なくとも6.8%の精度です。
要約(オリジナル)
Current sign language machine translation systems rely on recognizing hand movements, facial expressions and body postures, and natural language processing, to convert signs into text. Recent approaches use Transformer architectures to model long-range dependencies via positional encoding. However, they lack accuracy in recognizing fine-grained, short-range temporal dependencies between gestures captured at high frame rates. Moreover, their high computational complexity leads to inefficient training. To mitigate these issues, we propose an Adaptive Transformer (ADAT), which incorporates components for enhanced feature extraction and adaptive feature weighting through a gating mechanism to emphasize contextually relevant features while reducing training overhead and maintaining translation accuracy. To evaluate ADAT, we introduce MedASL, the first public medical American Sign Language dataset. In sign-to-gloss-to-text experiments, ADAT outperforms the encoder-decoder transformer, improving BLEU-4 accuracy by 0.1% while reducing training time by 14.33% on PHOENIX14T and 3.24% on MedASL. In sign-to-text experiments, it improves accuracy by 8.7% and reduces training time by 2.8% on PHOENIX14T and achieves 4.7% higher accuracy and 7.17% faster training on MedASL. Compared to encoder-only and decoder-only baselines in sign-to-text, ADAT is at least 6.8% more accurate despite being up to 12.1% slower due to its dual-stream structure.
arxiv情報
著者 | Nada Shahin,Leila Ismail |
発行日 | 2025-04-16 10:20:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google