Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair

要約

同時機械翻訳 (SiMT) システムでは、同時通訳 (SI) コーパスを使用したトレーニングが、高品質でありながら遅延の少ないシステムを実現する効果的な方法です。
しかし、アノテーターの能力には限界があるため、このようなコーパスを管理することは非常に困難であり、そのため既存の SI コーパスには限界があります。
そこで、我々は大規模言語モデル(LLM-SI-Corpus)を用いて、元の語順を維持し、ソース内容全体を保存しながら、既存の音声翻訳コーパスを通訳形式のデータに変換する手法を提案する。
LLM-SI-Corpus を使用してテキストからテキストへの設定および音声からテキストへの設定で SiMT モデルを微調整すると、オフライン データセットでトレーニングされたモデルと同じレベルの品質を維持しながら遅延が削減されることを実証します。
LLM-SI-Corpus は \url{https://github.com/yuuke1997/LLM-SI-Corpus} で入手できます。

要約(オリジナル)

In Simultaneous Machine Translation (SiMT) systems, training with a simultaneous interpretation (SI) corpus is an effective method for achieving high-quality yet low-latency systems. However, it is very challenging to curate such a corpus due to limitations in the abilities of annotators, and hence, existing SI corpora are limited. Therefore, we propose a method to convert existing speech translation corpora into interpretation-style data, maintaining the original word order and preserving the entire source content using Large Language Models (LLM-SI-Corpus). We demonstrate that fine-tuning SiMT models in text-to-text and speech-to-text settings with the LLM-SI-Corpus reduces latencies while maintaining the same level of quality as the models trained with offline datasets. The LLM-SI-Corpus is available at \url{https://github.com/yusuke1997/LLM-SI-Corpus}.

arxiv情報

著者 Yusuke Sakai,Mana Makinae,Hidetaka Kamigaito,Taro Watanabe
発行日 2024-04-18 16:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク