要約
既存の音声翻訳ベンチマークの多くは、高品質の録音条件でのネイティブ英語の音声に焦点を当てていますが、多くの場合、実際の使用例の条件と一致しません。
この論文では、科学会議の講演の翻訳に焦点を当てた、IWSLT 2023 の多言語トラック用の音声翻訳システムについて説明します。
テスト条件は、アクセントのある入力音声と専門用語が豊富な内容を特徴としています。
このタスクでは、さまざまな量のリソースを 10 か国語に翻訳する必要があります。
ターゲット ドメインからのトレーニング データが存在しない場合、効果的な適応のために検索ベースのアプローチ (kNN-MT) を使用します (音声翻訳の場合は +0.8 BLEU)。
また、アダプターを使用して、データ拡張からの増分トレーニング データを簡単に統合し、それが再トレーニングのパフォーマンスと一致することを示します。
カスケード システムは、モジュールが分離されているため、特定のターゲット ドメインに対してより簡単に適応できることがわかります。
当社のカスケード音声システムは、科学講演の翻訳ではエンドツーエンドの対応製品よりも大幅に優れていますが、TED 講演では同等のパフォーマンスを維持しています。
要約(オリジナル)
Many existing speech translation benchmarks focus on native-English speech in high-quality recording conditions, which often do not match the conditions in real-life use-cases. In this paper, we describe our speech translation system for the multilingual track of IWSLT 2023, which focuses on the translation of scientific conference talks. The test condition features accented input speech and terminology-dense contents. The tasks requires translation into 10 languages of varying amounts of resources. In absence of training data from the target domain, we use a retrieval-based approach (kNN-MT) for effective adaptation (+0.8 BLEU for speech translation). We also use adapters to easily integrate incremental training data from data augmentation, and show that it matches the performance of re-training. We observe that cascaded systems are more easily adaptable towards specific target domains, due to their separate modules. Our cascaded speech system substantially outperforms its end-to-end counterpart on scientific talk translation, although their performance remains similar on TED talks.
arxiv情報
著者 | Danni Liu,Thai Binh Nguyen,Sai Koneru,Enes Yavuz Ugan,Ngoc-Quan Pham,Tuan-Nam Nguyen,Tu Anh Dinh,Carlos Mullov,Alexander Waibel,Jan Niehues |
発行日 | 2023-06-08 16:13:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google