CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition

要約

継続的な手話認識(CSLR)は、ビデオの手話ジェスチャーの解釈と転写シーケンスの解釈と転写に焦点を当てています。
この作業では、クリップモデルからパラメーター効率の高い微調整(PEFT)を介して、クリップモデルから手話タスクまで強力な事前訓練を受けた視覚エンコーダーを活用する新しいCSLRフレームワークであるClip手話適応(CLIP-SLA)を提案します。
PEFTモジュールをクリップビジュアルエンコーダーに統合するSLAアダプターとSLA-LORAの2つのバリアントを導入し、最小限のトレーニング可能なパラメーターで微調整を可能にします。
提案されたフレームワークの有効性は、Phoenix2014、Phoenix2014-T、CSL-Daily、およびIsharah-500の4つのデータセットで検証されています。
広範なアブレーション研究は、CSLRの異なる視覚言語モデルを使用して、提案された方法の有効性と柔軟性を強調しています。
これらの調査結果は、スケーラブルで効率的なCSLRの大規模な事前訓練モデルを適応させる可能性を示しています。これは、手話の理解における将来の進歩への道を開きます。

要約(オリジナル)

Continuous sign language recognition (CSLR) focuses on interpreting and transcribing sequences of sign language gestures in videos. In this work, we propose CLIP sign language adaptation (CLIP-SLA), a novel CSLR framework that leverages the powerful pre-trained visual encoder from the CLIP model to sign language tasks through parameter-efficient fine-tuning (PEFT). We introduce two variants, SLA-Adapter and SLA-LoRA, which integrate PEFT modules into the CLIP visual encoder, enabling fine-tuning with minimal trainable parameters. The effectiveness of the proposed frameworks is validated on four datasets: Phoenix2014, Phoenix2014-T, CSL-Daily, and Isharah-500, where both CLIP-SLA variants outperformed several SOTA models with fewer trainable parameters. Extensive ablation studies emphasize the effectiveness and flexibility of the proposed methods with different vision-language models for CSLR. These findings showcase the potential of adapting large-scale pre-trained models for scalable and efficient CSLR, which pave the way for future advancements in sign language understanding.

arxiv情報

著者 Sarah Alyami,Hamzah Luqman
発行日 2025-04-02 12:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク