Long-Form End-to-End Speech Translation via Latent Alignment Segmentation

要約

現在の同時音声翻訳モデルは、最大数秒の音声しか処理できません。
現代のデータセットは、人間が注釈を付けたトランスクリプトと翻訳に基づいて、オラクルによる文へのセグメンテーションを提供します。
ただし、文への分割は現実の世界では利用できません。
現在の音声セグメンテーションのアプローチでは、セグメンテーションの品質が低いか、品質のために遅延を犠牲にする必要があります。
この論文では、低遅延のエンドツーエンド音声翻訳のための新しいセグメンテーション アプローチを提案します。
ST CTC を使用して既存の音声翻訳エンコーダ/デコーダ アーキテクチャを活用し、監視や追加パラメータなしでセグメンテーション タスクを実行できることを示します。
私たちの知る限り、私たちの方法は、同じモデルが翻訳とセグメンテーションに同時に使用されるため、実際のエンドツーエンドの同時音声翻訳を可能にする最初の方法です。
多様な言語ペアとドメイン内およびドメイン外のデータ上で、提案されたアプローチが追加の計算コストなしで最先端の品質を達成することを示します。

要約(オリジナル)

Current simultaneous speech translation models can process audio only up to a few seconds long. Contemporary datasets provide an oracle segmentation into sentences based on human-annotated transcripts and translations. However, the segmentation into sentences is not available in the real world. Current speech segmentation approaches either offer poor segmentation quality or have to trade latency for quality. In this paper, we propose a novel segmentation approach for a low-latency end-to-end speech translation. We leverage the existing speech translation encoder-decoder architecture with ST CTC and show that it can perform the segmentation task without supervision or additional parameters. To the best of our knowledge, our method is the first that allows an actual end-to-end simultaneous speech translation, as the same model is used for translation and segmentation at the same time. On a diverse set of language pairs and in- and out-of-domain data, we show that the proposed approach achieves state-of-the-art quality at no additional computational cost.

arxiv情報

著者 Peter Polák,Ondřej Bojar
発行日 2023-09-20 15:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク