要約
継続的手話認識 (CSLR) 研究における現在のボトルネックは、公的に利用可能なデータセットのほとんどが実験室環境またはテレビ番組の録画に限定されており、その結果、均一な照明を備えた単一の背景環境となり、これまでに見出された多様性と複雑性から大幅に逸脱しているという事実にあります。
現実のシナリオでは。
この課題に対処するために、私たちは複雑な環境に基づいた中国語連続手話 (CSL) 用の新しい大規模なデータセットを構築しました。これは、複雑な環境 – 中国語手話データセット (CE-CSL) と呼ばれます。
このデータセットには、日常生活のシーンから収集された 5,988 個の連続 CSL ビデオ クリップが含まれており、代表性と一般化機能を確保するために 70 以上の異なる複雑な背景が特徴です。
CSLR のパフォーマンスに対する複雑な背景の影響に取り組むために、継続的な手話認識のための時間周波数ネットワーク (TFNet) モデルを提案します。
このモデルは、フレームレベルの特徴を抽出し、時間情報とスペクトル情報の両方を利用して、融合前にシーケンス特徴を個別に導出し、効率的で正確な CSLR を達成することを目指しています。
実験結果は、私たちのアプローチが CE-CSL のパフォーマンスを大幅に向上させ、複雑な背景条件下での有効性を検証したことを示しています。
さらに、私たちが提案した方法は、公開されている 3 つの CSL データセットに適用した場合にも、非常に競争力のある結果をもたらしました。
要約(オリジナル)
The current bottleneck in continuous sign language recognition (CSLR) research lies in the fact that most publicly available datasets are limited to laboratory environments or television program recordings, resulting in a single background environment with uniform lighting, which significantly deviates from the diversity and complexity found in real-life scenarios. To address this challenge, we have constructed a new, large-scale dataset for Chinese continuous sign language (CSL) based on complex environments, termed the complex environment – chinese sign language dataset (CE-CSL). This dataset encompasses 5,988 continuous CSL video clips collected from daily life scenes, featuring more than 70 different complex backgrounds to ensure representativeness and generalization capability. To tackle the impact of complex backgrounds on CSLR performance, we propose a time-frequency network (TFNet) model for continuous sign language recognition. This model extracts frame-level features and then utilizes both temporal and spectral information to separately derive sequence features before fusion, aiming to achieve efficient and accurate CSLR. Experimental results demonstrate that our approach achieves significant performance improvements on the CE-CSL, validating its effectiveness under complex background conditions. Additionally, our proposed method has also yielded highly competitive results when applied to three publicly available CSL datasets.
arxiv情報
著者 | Qidan Zhu,Jing Li,Fei Yuan,Jiaojiao Fan,Quan Gan |
発行日 | 2024-09-18 13:11:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google