Compact Speech Translation Models via Discrete Speech Units Pretraining

要約

音声翻訳 (ST) で優れた結果を得るには、モデルの初期化として自己教師あり学習 (SSL) を使用することが現在では一般的です。
ただし、メモリ使用量も大きくなり、デバイス上での展開が妨げられます。
このペーパーでは、離散音声単位 (DSU) で小規模なモデルを事前トレーニングすることにより、SSL モデルを活用します。
1) フィルターバンクから DSU へ、および 2) DSU から翻訳データに基づいてエンコーダー – デコーダー モデルを事前トレーニングし、1) からエンコーダーを、2) からデコーダーを取得して新しいモデルを初期化し、限定された音声翻訳でこれを微調整します。
データ。
DSU 事前トレーニングを使用して SSL モデルの知識を絞り出すことにより、最終モデルはコンパクトになります。
私たちの方法には、推論パイプラインの短縮や (DSU) トークン化に対する堅牢性など、DSU をモデル入力として使用する場合に比べていくつかの利点があります。
ASR 事前トレーニングとは対照的に、トランスクリプトは必要ないため、リソースが少ない設定にも適用できます。
CoVoST-2 X-En での評価では、モデル サイズが半分しか与えられておらず、ASR 事前トレーニングと同等であるにもかかわらず、SSL モデルを直接微調整する ST モデルよりも、私たちの方法が $0.5$ BLEU 以上優れていることが示されています。

要約(オリジナル)

Using Self-Supervised Learning (SSL) as model initialization is now common to obtain strong results in Speech Translation (ST). However, they also impose a large memory footprint, hindering on-device deployment. In this paper, we leverage the SSL models by pretraining smaller models on their Discrete Speech Units (DSU). We pretrain encoder-decoder models on 1) Filterbank-to-DSU and 2) DSU-to-Translation data, and take the encoder from 1) and the decoder from 2) to initialise a new model, finetuning this on limited speech-translation data. The final model becomes compact by using the DSU pretraining to distil the knowledge of the SSL model. Our method has several benefits over using DSU as model inputs, such as shorter inference pipeline and robustness over (DSU) tokenization. In contrast to ASR pretraining, it does not require transcripts, making it applicable to low-resource settings. Evaluation on CoVoST-2 X-En shows that our method is >$0.5$ BLEU better than a ST model that directly finetune the SSL model, given only half the model size, and on a par with ASR pretraining.

arxiv情報

著者 Tsz Kin Lam,Alexandra Birch,Barry Haddow
発行日 2024-02-29 16:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク