A multitask transformer to sign language translation using motion gesture primitives

要約

効果的なコミュニケーションの欠如ろう集団は、このコミュニティの主要な社会的ギャップを表しています。
さらに、手話である主な聴覚障害のあるコミュニケーションツールは、文書化されていません。つまり、正式な書面による表現はありません。
その結果、今日の主な課題は、時空間的な標識表現と自然のテキスト言語の間の自動翻訳です。
最近のアプローチは、最も関連性の高い戦略が注意モジュールを統合して非線形対応を強化するエンコーダーデコーダーアーキテクチャに基づいています。さらに、これらの近似の多くは、中間テキスト投影がないため、合理的な予測を達成するために複雑なトレーニングとアーキテクチャスキームを必要とします。
ただし、ビデオシーケンスの冗長な背景情報によってまだ制限されています。
この作業では、より適切な翻訳を実現するための光沢学習表現を含むマルチタスク変圧器アーキテクチャを紹介します。
提案されたアプローチには、ジェスチャーを強化し、手話の重要なコンポーネントである運動学的情報を含む密なモーション表現も含まれます。
この表現から、背景情報を回避し、標識のジオメトリを活用することが可能です。さらに、中間のテキスト表現としてのジェスチャーと光沢のアライメントを促進する時空間表現が含まれます。
提案されたアプローチは、col-SLTDデータセットで評価された最先端のアートを上回り、スプリット1で72,64%のBLEU-4を達成し、スプリット2で14,64%のBLE-4を達成しました。

要約(オリジナル)

The absence of effective communication the deaf population represents the main social gap in this community. Furthermore, the sign language, main deaf communication tool, is unlettered, i.e., there is no formal written representation. In consequence, main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. Recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, besides, many of these approximations require complex training and architectural schemes to achieve reasonable predictions, because of the absence of intermediate text projections. However, they are still limited by the redundant background information of the video sequences. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach also includes a dense motion representation that enhances gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid background information and exploit the geometry of the signs, in addition, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of 72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Additionally, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a competitive BLEU-4 of 11,58%.

arxiv情報

著者 Fredy Alejandro Mendoza López,Jefferson Rodriguez,Fabio Martínez
発行日 2025-03-25 13:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク