要約
この作業は、手話の翻訳とデータ注釈に大きな影響を与える重要なタスクである、継続的な手話セグメンテーションの課題に取り組んでいます。
SigningおよびFramesセグメンテーションの時間的ダイナミクスをモデル化し、Begin-In-Out(Bio)タグ付けスキームを使用したシーケンスラベル付けの問題としてモデル化するトランスベースのアーキテクチャを提案します。
私たちの方法は、Hamer Handの特徴を活用し、3D角度で補完されます。
広範な実験では、モデルがDGSコーパスで最先端の結果を達成し、BSLCorpusの以前のベンチマークを上回る機能を示しています。
要約(オリジナル)
This work tackles the challenge of continuous sign language segmentation, a key task with huge implications for sign language translation and data annotation. We propose a transformer-based architecture that models the temporal dynamics of signing and frames segmentation as a sequence labeling problem using the Begin-In-Out (BIO) tagging scheme. Our method leverages the HaMeR hand features, and is complemented with 3D Angles. Extensive experiments show that our model achieves state-of-the-art results on the DGS Corpus, while our features surpass prior benchmarks on BSLCorpus.
arxiv情報
著者 | Low Jian He,Harry Walsh,Ozge Mercanoglu Sincan,Richard Bowden |
発行日 | 2025-04-14 08:07:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google