Cross-modality Data Augmentation for End-to-End Sign Language Translation

要約

エンドツーエンド手話翻訳 (SLT) は、中間表現を使用せずに、手話ビデオを音声言語テキストに直接変換することを目的としています。
サインビデオとテキストの間のモダリティのギャップと、ラベル付きデータのデータ不足により、これは困難な作業でした。
これらの課題に取り組むために、私たちは、擬似光沢を利用することで、強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳 (つまり、ビデオからテキストへ) に移行する、新しいクロスモダリティ データ拡張 (XmDA) フレームワークを提案します。
– サイングロス翻訳モデルからのテキストペア。
具体的には、XmDA は、クロスモダリティの混合とクロスモダリティの知識の蒸留という 2 つの主要なコンポーネントで構成されます。
前者は、モダリティのギャップを埋めるために、標識ビデオ機能と光沢埋め込みの間の調整を明示的に奨励します。
後者は、グロスからテキストへの教師モデルからの生成知識を利用して、音声言語テキスト生成をガイドします。
広く使用されている 2 つの SLT データセット、つまり PHOENIX-2014T と CSL-Daily に関する実験結果は、提案された XmDA フレームワークがベースライン モデルを大幅かつ一貫して上回るパフォーマンスを示していることを示しています。
広範な分析により、XmDA はビデオとテキスト間の表現距離を短縮し、低頻度の単語や長文の処理を改善することにより、音声言語テキストの生成を強化するという私たちの主張が裏付けられています。

要約(オリジナル)

End-to-end sign language translation (SLT) aims to convert sign language videos into spoken language texts directly without intermediate representations. It has been a challenging task due to the modality gap between sign videos and texts and the data scarcity of labeled data. To tackle these challenges, we propose a novel Cross-modality Data Augmentation (XmDA) framework to transfer the powerful gloss-to-text translation capabilities to end-to-end sign language translation (i.e. video-to-text) by exploiting pseudo gloss-text pairs from the sign gloss translation model. Specifically, XmDA consists of two key components, namely, cross-modality mix-up and cross-modality knowledge distillation. The former explicitly encourages the alignment between sign video features and gloss embeddings to bridge the modality gap. The latter utilizes the generation knowledge from gloss-to-text teacher models to guide the spoken language text generation. Experimental results on two widely used SLT datasets, i.e., PHOENIX-2014T and CSL-Daily, demonstrate that the proposed XmDA framework significantly and consistently outperforms the baseline models. Extensive analyses confirm our claim that XmDA enhances spoken language text generation by reducing the representation distance between videos and texts, as well as improving the processing of low-frequency words and long sentences.

arxiv情報

著者 Jinhui Ye,Wenxiang Jiao,Xing Wang,Zhaopeng Tu,Hui Xiong
発行日 2023-10-18 11:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク