要約
この研究では、5 年生、6 年生、8 年生のオンライン トルコ語授業から収集された継続的な教育トルコ手話 (E-TSL) データセットを紹介します。
データセットは合計 24 時間近くの 1,410 本のビデオで構成されており、11 人の署名者のパフォーマンスが含まれています。
膠着語であるトルコ語は、特に 64% が単一単語で、85% が出現回数 5 回未満の稀な単語である語彙の場合、手話翻訳に独特の課題をもたらします。
これらの課題に対処するために、Pose to Text Transformer (P2T-T) モデルと Graph Neural Network based Transformer (GNN-T) モデルという 2 つのベースライン モデルを開発しました。
GNN-T モデルは、BLEU-1 スコア 19.13%、BLEU-4 スコア 3.28% を達成し、既存のベンチマークと比較して大きな課題を提示しました。
P2T-T モデルは、BLEU スコアではわずかに低いパフォーマンスを示しましたが、22.09% というより高い ROUGE-L スコアを達成しました。
さらに、アプローチを検証するために、よく知られている PHOENIX-Weather 2014T データセットを使用してモデルのベンチマークを実行しました。
要約(オリジナル)
This study introduces the continuous Educational Turkish Sign Language (E-TSL) dataset, collected from online Turkish language lessons for 5th, 6th, and 8th grades. The dataset comprises 1,410 videos totaling nearly 24 hours and includes performances from 11 signers. Turkish, an agglutinative language, poses unique challenges for sign language translation, particularly with a vocabulary where 64% are singleton words and 85% are rare words, appearing less than five times. We developed two baseline models to address these challenges: the Pose to Text Transformer (P2T-T) and the Graph Neural Network based Transformer (GNN-T) models. The GNN-T model achieved 19.13% BLEU-1 score and 3.28% BLEU-4 score, presenting a significant challenge compared to existing benchmarks. The P2T-T model, while demonstrating slightly lower performance in BLEU scores, achieved a higher ROUGE-L score of 22.09%. Additionally, we benchmarked our model using the well-known PHOENIX-Weather 2014T dataset to validate our approach.
arxiv情報
著者 | Şükrü Öztürk,Hacer Yalim Keles |
発行日 | 2024-07-23 13:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google