Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining

要約

手話翻訳 (SLT) は、視覚的ジェスチャー言語をテキストに翻訳するというクロスドメインの性質のため、困難なタスクです。
これまでの手法の多くは、SLT を容易にするために中間表現、つまり光沢シーケンスを採用しており、SLT を手話認識 (SLR) に続いて手話翻訳 (SLT) という 2 段階のタスクに変換していました。
しかし、光沢注釈付きの手話データの不足と、中間レベルの光沢表現における情報のボトルネックが、SLT タスクのさらなる開発を妨げています。
この課題に対処するために、ビジュアル言語事前トレーニング (GFSLT-VLP) に基づく新しい光沢フリー SLT を提案します。これは、光沢アノテーションの支援なしで、事前トレーニングされたモデルから言語指向の事前知識を継承することで SLT を改善します。
私たちのアプローチには 2 つの段階が含まれます: (i) 対照的言語画像事前トレーニング (CLIP) をマスクされた自己教師あり学習と統合して、視覚的表現とテキスト表現の間の意味論的なギャップを埋め、マスクされた文を復元する事前タスクを作成します。(ii)
最初のステージから事前トレーニングされたビジュアル エンコーダーとテキスト デコーダーのパラメーターを継承するエンコーダー デコーダーのような構造を備えたエンドツーエンド アーキテクチャを構築します。
これらの斬新なデザインをシームレスに組み合わせることで、堅牢な手話表現が形成され、光沢のない手話翻訳が大幅に向上します。
特に、最先端の光沢フリー SLT 手法と比較して、PHOENIX14T データセット (>+5) および CSL-Daily データセット (>+3) の BLEU-4 スコアに関して前例のない改善を達成しました。
さらに、私たちのアプローチは、ほとんどの光沢ベースの方法と比較した場合、PHOENIX14T データセットでも競争力のある結果を達成します。
私たちのコードは https://github.com/zhoubenjia/GFSLT-VLP で入手できます。

要約(オリジナル)

Sign Language Translation (SLT) is a challenging task due to its cross-domain nature, involving the translation of visual-gestural language to text. Many previous methods employ an intermediate representation, i.e., gloss sequences, to facilitate SLT, thus transforming it into a two-stage task of sign language recognition (SLR) followed by sign language translation (SLT). However, the scarcity of gloss-annotated sign language data, combined with the information bottleneck in the mid-level gloss representation, has hindered the further development of the SLT task. To address this challenge, we propose a novel Gloss-Free SLT based on Visual-Language Pretraining (GFSLT-VLP), which improves SLT by inheriting language-oriented prior knowledge from pre-trained models, without any gloss annotation assistance. Our approach involves two stages: (i) integrating Contrastive Language-Image Pre-training (CLIP) with masked self-supervised learning to create pre-tasks that bridge the semantic gap between visual and textual representations and restore masked sentences, and (ii) constructing an end-to-end architecture with an encoder-decoder-like structure that inherits the parameters of the pre-trained Visual Encoder and Text Decoder from the first stage. The seamless combination of these novel designs forms a robust sign language representation and significantly improves gloss-free sign language translation. In particular, we have achieved unprecedented improvements in terms of BLEU-4 score on the PHOENIX14T dataset (>+5) and the CSL-Daily dataset (>+3) compared to state-of-the-art gloss-free SLT methods. Furthermore, our approach also achieves competitive results on the PHOENIX14T dataset when compared with most of the gloss-based methods. Our code is available at https://github.com/zhoubenjia/GFSLT-VLP.

arxiv情報

著者 Benjia Zhou,Zhigang Chen,Albert Clapés,Jun Wan,Yanyan Liang,Sergio Escalera,Zhen Lei,Du Zhang
発行日 2023-07-27 10:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク