Improving Speech Translation by Cross-Modal Multi-Grained Contrastive Learning

要約

タイトル:多重粒度対照学習による音声翻訳の改善

要約:

– E2E-STモデルは、低レイテンシと誤差伝播の少なさのため、主流のパラダイムになってきているが、タスクの複雑さとデータの不足が原因で、そのモデルをうまくトレーニングすることは容易ではない。
– E2E-STモデルの処理上の問題により、その性能は一般的に対応する機械翻訳(MT)モデルよりも劣ることが多い。
– 現存の研究では、共有メカニズムを使用して間接的な知識伝達を行うことで、この問題に対処することが多いが、最終的なモデルはMTタスクでMTモデル単体でトレーニングした場合よりも精度が悪くなる。
– この問題に対処するために、提案されたFCCL(細かい&粗い粒度の対照学習)アプローチは、クロスモーダルの多重粒度対照学習を通じて明示的な知識伝達を行うことを可能にする。
– この手法の鍵となる要素は、文章レベルとフレームレベルの両方で対照学習を適用して、多様な意味情報を含む音声表現の包括的なガイドを提供することである。
– さらに、比較的単純な白色化手法を採用することで、MTモデル内で表現が変質する問題を緩和し、対照学習に逆効果になることを防止する。
– MuST-Cベンチマークにおける実験結果は、提案されたアプローチが8つの言語ペアすべてで既存のE2E-STベースラインを大幅に上回ることを示している。
– さらに、FCCLは、文法構造情報の学習を解放し、より多くのレイヤーが意味情報を学習するように強制することができるということが分析によって示されている。

要約(オリジナル)

The end-to-end speech translation (E2E-ST) model has gradually become a mainstream paradigm due to its low latency and less error propagation. However, it is non-trivial to train such a model well due to the task complexity and data scarcity. The speech-and-text modality differences result in the E2E-ST model performance usually inferior to the corresponding machine translation (MT) model. Based on the above observation, existing methods often use sharingmechanisms to carry out implicit knowledge transfer by imposing various constraints. However, the final model often performs worse on the MT task than the MT model trained alone, which means that the knowledge transfer ability of this method is also limited. To deal with these problems, we propose the FCCL (Fine- and Coarse- Granularity Contrastive Learning) approach for E2E-ST, which makes explicit knowledge transfer through cross-modal multi-grained contrastive learning. A key ingredient of our approach is applying contrastive learning at both sentence- and frame-level to give the comprehensive guide for extracting speech representations containing rich semantic information.In addition, we adopt a simple whitening method to alleviate the representation degeneration in the MT model, which adversely affects contrast learning. Experiments on the MuST-C benchmark show that our proposed approach significantly outperforms the state-of-the-art E2E-ST baselines on all eight language pairs. Further analysis indicates that FCCL can free up its capacity from learning grammatical structure information and force more layers to learn semantic information.

arxiv情報

著者 Hao Zhang,Nianwen Si,Yaqi Chen,Wenlin Zhang,Xukui Yang,Dan Qu,Wei-Qiang Zhang
発行日 2023-04-20 13:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク