C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval

要約

手話表現学習 (SLRL) は、手話翻訳 (SLT) や手話検索 (SLRet) などの手話関連の下流タスクの範囲にとって重要です。
最近、多くの光沢ベースおよび光沢なしの SLRL 方式が提案され、有望なパフォーマンスが示されています。
中でも、光沢フリーのアプローチは、光沢アノテーションに依存せずに強力なスケーラビリティが期待できます。
しかし、現在、手話ビデオの複雑で状況依存の特性をエンコードする際の課題により、最適とは言えない解決策に直面しており、主に非単調なビデオとテキストの配置戦略を使用して重要な手話の特徴を識別するのに苦労しています。
したがって、この論文では、C${^2}$RL と呼ばれる、光沢のない SLRL のための革新的な事前トレーニング パラダイムを紹介します。
具体的には、言語指向の手話特徴を学習するためにビデオとテキストの非単調なセマンティック調整を単に組み込むのではなく、暗黙的コンテンツ学習 (ICL) と明示的コンテキスト学習 (ECL) という SLRL の 2 つの重要な側面を強調します。
ICL はコミュニケーションの内容を掘り下げ、サインのニュアンス、強調、タイミング、リズムを捉えます。
対照的に、ECL は、記号の文脈上の意味を理解し、それらを同等の文に変換することに重点を置いています。
そのシンプルさにも関わらず、広範な実験により、ICL と ECL の共同最適化により、堅牢な手話表現と光沢なしの SLT および SLRet タスクのパフォーマンスの大幅な向上がもたらされることが確認されています。
特に、C${^2}$RL は、BLEU-4 スコアを P14T で +5.3、CSL-daily で +10.6、OpenASL で +6.2、How2Sign で +1.3 改善します。
また、R@1 スコアも P14T で +8.3、CSL-daily で +14.4、How2Sign で +5.9 向上します。
さらに、SLRet タスクで OpenASL データセットの新しいベースラインを設定しました。

要約(オリジナル)

Sign Language Representation Learning (SLRL) is crucial for a range of sign language-related downstream tasks such as Sign Language Translation (SLT) and Sign Language Retrieval (SLRet). Recently, many gloss-based and gloss-free SLRL methods have been proposed, showing promising performance. Among them, the gloss-free approach shows promise for strong scalability without relying on gloss annotations. However, it currently faces suboptimal solutions due to challenges in encoding the intricate, context-sensitive characteristics of sign language videos, mainly struggling to discern essential sign features using a non-monotonic video-text alignment strategy. Therefore, we introduce an innovative pretraining paradigm for gloss-free SLRL, called C${^2}$RL, in this paper. Specifically, rather than merely incorporating a non-monotonic semantic alignment of video and text to learn language-oriented sign features, we emphasize two pivotal aspects of SLRL: Implicit Content Learning (ICL) and Explicit Context Learning (ECL). ICL delves into the content of communication, capturing the nuances, emphasis, timing, and rhythm of the signs. In contrast, ECL focuses on understanding the contextual meaning of signs and converting them into equivalent sentences. Despite its simplicity, extensive experiments confirm that the joint optimization of ICL and ECL results in robust sign language representation and significant performance gains in gloss-free SLT and SLRet tasks. Notably, C${^2}$RL improves the BLEU-4 score by +5.3 on P14T, +10.6 on CSL-daily, +6.2 on OpenASL, and +1.3 on How2Sign. It also boosts the R@1 score by +8.3 on P14T, +14.4 on CSL-daily, and +5.9 on How2Sign. Additionally, we set a new baseline for the OpenASL dataset in the SLRet task.

arxiv情報

著者 Zhigang Chen,Benjia Zhou,Yiqing Huang,Jun Wan,Yibo Hu,Hailin Shi,Yanyan Liang,Zhen Lei,Du Zhang
発行日 2024-08-19 12:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク