Hands-On: Segmenting Individual Signs from Continuous Sequences

要約

この作業は、手話の翻訳とデータ注釈に大きな影響を与える重要なタスクである、継続的な手話セグメンテーションの課題に取り組んでいます。
SigningおよびFramesセグメンテーションの時間的ダイナミクスをモデル化し、Begin-In-Out(Bio)タグ付けスキームを使用したシーケンスラベル付けの問題としてモデル化するトランスベースのアーキテクチャを提案します。
私たちの方法は、Hamer Handの特徴を活用し、3D角度で補完されます。
広範な実験では、モデルがDGSコーパスで最先端の結果を達成し、BSLCorpusの以前のベンチマークを上回る機能を示しています。

要約(オリジナル)

This work tackles the challenge of continuous sign language segmentation, a key task with huge implications for sign language translation and data annotation. We propose a transformer-based architecture that models the temporal dynamics of signing and frames segmentation as a sequence labeling problem using the Begin-In-Out (BIO) tagging scheme. Our method leverages the HaMeR hand features, and is complemented with 3D Angles. Extensive experiments show that our model achieves state-of-the-art results on the DGS Corpus, while our features surpass prior benchmarks on BSLCorpus.

arxiv情報

著者 Low Jian He,Harry Walsh,Ozge Mercanoglu Sincan,Richard Bowden
発行日 2025-04-14 08:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク