要約
近年、トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質の大幅な向上を実現しています。
音声信号は対応するテキストよりも長いため、また Transformer の二次的な複雑さのために、音声翻訳での採用にはダウンサンプリング ステップが不可欠です。
代わりに、この研究では、Perceiver エンコーダーを使用して音声入力を固定長の潜在表現にマッピングすることにより、複雑さを緩和することを提案します。
さらに、Dynamic Latent Access (DLA) を使用して Perceiver をトレーニングする新しい方法を導入し、追加の計算オーバーヘッドなしでより大きな潜在空間を解放します。
DLA を使用した Speech-to-Text Perceiver は、MuST-C の 3 つの言語ペアで Transformer ベースラインのパフォーマンスに匹敵します。
最後に、DLA でトレーニングされたモデルは、推論時に DLA に簡単に適応でき、翻訳品質を大幅に低下させることなく、さまざまな計算予算で柔軟に展開できます。
要約(オリジナル)
Transformers have been the dominant architecture for Speech Translation in recent years, achieving significant improvements in translation quality. Since speech signals are longer than their textual counterparts, and due to the quadratic complexity of the Transformer, a down-sampling step is essential for its adoption in Speech Translation. Instead, in this research, we propose to ease the complexity by using a Perceiver encoder to map the speech inputs to a fixed-length latent representation. Furthermore, we introduce a novel way of training Perceivers, with Dynamic Latent Access (DLA), unlocking larger latent spaces without any additional computational overhead. Speech-to-Text Perceivers with DLA can match the performance of Transformer baselines across three language pairs in MuST-C. Finally, a DLA-trained model is easily adaptable to DLA at inference, and can be flexibly deployed with various computational budgets, without significant drops in translation quality.
arxiv情報
著者 | Ioannis Tsiamas,Gerard I. Gállego,José A. R. Fonollosa,Marta R. Costa-jussà |
発行日 | 2023-03-14 11:08:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google