Scaling Sign Language Translation

要約

手話翻訳 (SLT) は、情報をビデオの手話からテキストの音声言語に翻訳する問題に対処します。
既存の研究は進歩を示しているものの、多くの場合、狭い領域および/または少数の手話に限定されており、オープンドメインの課題に苦戦しています。
この論文では、事前トレーニング データ、モデル サイズ、変換方向の数をスケーリングすることにより、SLT の最前線を前進させます。
私たちは、1) ノイズの多い多言語 YouTube SLT データ、2) 並列テキスト コーパス、3) 既製の機械翻訳モデルを使用してビデオ キャプションを他の言語に翻訳することで強化された SLT データなど、さまざまなデータに対して大規模な SLT 事前トレーニングを実行します。
エンコーダー/デコーダー アーキテクチャの下で、さまざまな事前トレーニング タスクをタスク固有のプロンプトと統合し、モデル サイズ全体で事前トレーニングされた (m/By) T5 モデルを使用して SLT モデルを初期化します。
How2Sign および FLEURS-ASL#0 (ASL から 42 の話し言葉へ) での SLT 事前トレーニングの結果は、データ/モデルのスケーリングと言語間クロスモーダル転送の重要性、およびゼロショット SLT の実現可能性を示しています。
5 つの手話言語をカバーする 5 つのダウンストリーム オープンドメイン SLT ベンチマークで、事前トレーニングされた SLT モデルを微調整します。
実験では、バニラのベースラインに比べて品質が大幅に向上し、以前の最先端 (SOTA) を大幅に上回っていることがわかりました。

要約(オリジナル)

Sign language translation (SLT) addresses the problem of translating information from a sign language in video to a spoken language in text. Existing studies, while showing progress, are often limited to narrow domains and/or few sign languages and struggle with open-domain tasks. In this paper, we push forward the frontier of SLT by scaling pretraining data, model size, and number of translation directions. We perform large-scale SLT pretraining on different data including 1) noisy multilingual YouTube SLT data, 2) parallel text corpora, and 3) SLT data augmented by translating video captions to other languages with off-the-shelf machine translation models. We unify different pretraining tasks with task-specific prompts under the encoder-decoder architecture, and initialize the SLT model with pretrained (m/By)T5 models across model sizes. SLT pretraining results on How2Sign and FLEURS-ASL#0 (ASL to 42 spoken languages) demonstrate the significance of data/model scaling and cross-lingual cross-modal transfer, as well as the feasibility of zero-shot SLT. We finetune the pretrained SLT models on 5 downstream open-domain SLT benchmarks covering 5 sign languages. Experiments show substantial quality improvements over the vanilla baselines, surpassing the previous state-of-the-art (SOTA) by wide margins.

arxiv情報

著者 Biao Zhang,Garrett Tanzer,Orhan Firat
発行日 2024-07-16 15:36:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク