要約
手話の事前トレーニングは、さまざまな手話理解(SLU)タスク全体でパフォーマンスを向上させる能力について注目を集めています。
ただし、既存の方法はしばしば、トレーニング前と微調整の間のギャップに悩まされ、最適ではない結果につながります。
これに対処するために、大規模な生成プリトレーニング戦略と新しい微調整パラダイムを通じて、トレーニング前と下流のSLUタスクのギャップを排除する統一された訓練前フレームワークであるUni-Signを提案します。
まず、1,985時間のビデオとテキストアノテーションを組み合わせた大規模な中国手話(CSL)データセットであるCSL-Newsを紹介します。これにより、効果的な大規模なトレーニングが可能になります。
第二に、Uni-Signは、微調整中にダウンストリームタスクを単一の手話翻訳(SLT)タスクとして扱うことにより、SLUタスクを統合し、トレーニング前と微調整の間のシームレスな知識転送を確保します。
さらに、ポーズとRGB情報を効率的に融合させ、キーポイントの不正確さに対処し、計算効率を改善するために、事前に誘導融合(PGF)モジュールとスコア認識サンプリング戦略を組み込みます。
複数のSLUベンチマークにわたる広範な実験は、Uni-Signが複数のダウンストリームSLUタスクで最先端のパフォーマンスを達成することを示しています。
データセットとコードはgithub.com/zechengli19/uni-signで入手できます。
要約(オリジナル)
Sign language pre-training has gained increasing attention for its ability to enhance performance across various sign language understanding (SLU) tasks. However, existing methods often suffer from a gap between pre-training and fine-tuning, leading to suboptimal results. To address this, we propose Uni-Sign, a unified pre-training framework that eliminates the gap between pre-training and downstream SLU tasks through a large-scale generative pre-training strategy and a novel fine-tuning paradigm. First, we introduce CSL-News, a large-scale Chinese Sign Language (CSL) dataset containing 1,985 hours of video paired with textual annotations, which enables effective large-scale pre-training. Second, Uni-Sign unifies SLU tasks by treating downstream tasks as a single sign language translation (SLT) task during fine-tuning, ensuring seamless knowledge transfer between pre-training and fine-tuning. Furthermore, we incorporate a prior-guided fusion (PGF) module and a score-aware sampling strategy to efficiently fuse pose and RGB information, addressing keypoint inaccuracies and improving computational efficiency. Extensive experiments across multiple SLU benchmarks demonstrate that Uni-Sign achieves state-of-the-art performance across multiple downstream SLU tasks. Dataset and code are available at github.com/ZechengLi19/Uni-Sign.
arxiv情報
著者 | Zecheng Li,Wengang Zhou,Weichao Zhao,Kepeng Wu,Hezhen Hu,Houqiang Li |
発行日 | 2025-01-28 09:44:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google