要約
手話翻訳(SLT)システムは、手話と音声言語の間の等価性を見つけることによって、聴覚障害者のコミュニケーションをサポートする。しかし、このタスクは、複数の手話のバリエーション、言語の複雑さ、固有の表現の豊かさのために困難である。計算機によるアプローチは、SLTをサポートする能力を実証している。しかしながら、これらのアプローチは、ジェスチャの多様性をカバーし、長いシーケンスの翻訳をサポートするにはまだ限界がある。本論文では、複数の畳み込み機構と注意機構を用いることで、局所的空間情報と長距離空間情報の両方を保持しながら、時空間運動ジェスチャーを符号化するTransformerベースのアーキテクチャを紹介する。提案アプローチは、コロンビア手話翻訳データセット(Colombian Sign Language Translation Dataset:CoL-SLTD)で検証され、ベースラインアプローチを上回り、46.84%のBLEU4を達成した。さらに、提案アプローチをRWTH-PHOENIX-Weather-2014T (PHOENIX14T)で検証し、BLEU4スコア30.77%を達成し、実世界のバリエーションに対する頑健性と有効性を実証した。
要約(オリジナル)
Sign Language Translation (SLT) systems support hearing-impaired people communication by finding equivalences between signed and spoken languages. This task is however challenging due to multiple sign variations, complexity in language and inherent richness of expressions. Computational approaches have evidenced capabilities to support SLT. Nonetheless, these approaches remain limited to cover gestures variability and support long sequence translations. This paper introduces a Transformer-based architecture that encodes spatio-temporal motion gestures, preserving both local and long-range spatial information through the use of multiple convolutional and attention mechanisms. The proposed approach was validated on the Colombian Sign Language Translation Dataset (CoL-SLTD) outperforming baseline approaches, and achieving a BLEU4 of 46.84%. Additionally, the proposed approach was validated on the RWTH-PHOENIX-Weather-2014T (PHOENIX14T), achieving a BLEU4 score of 30.77%, demonstrating its robustness and effectiveness in handling real-world variations
arxiv情報
著者 | Christian Ruiz,Fabio Martinez |
発行日 | 2025-02-04 18:59:19+00:00 |
arxivサイト | arxiv_id(pdf) |