NAIST-SIC-Aligned: Automatically-Aligned English-Japanese Simultaneous Interpretation Corpus

要約

タイトル:NAIST-SIC-Aligned:自動アラインメントされた英日同時通訳コーパス
要約:
– これまで同時機械翻訳(SiMT)に対する同時通訳(SI)データの影響については不明な点が残っている。
– 大規模なトレーニングコーパスが不足しているため、この研究に制限がある。
– 本研究では、NAIST-SIC-Alignedを紹介し、自動的にアラインメントされた英日並列SIデータセットを提供することで、このギャップを埋めることを目的としている。
– アラインメントを行うため、最初に非アラインメントのコーパスであるNAIST-SICから始め、2つの段階のアラインメントアプローチを提案する。
– 第1段階では、ソース文とターゲット文の間の多対多のマッピングを行い、第2段階では、文内および文間フィルタリングを実行してアラインされたペアの品質を改善する細かいアラインメントを行う。
– 各ステップは定量的にまたは定性的に検証されており、コーパスの品質が保証されている。
– これは文献において初めて公開された大規模な並列SIデータセットである。
– 評価目的のために、手動で小規模なテストセットも編成している。
– この研究により、SIコーパス構築とSiMTに関する調査が進展することを期待している。
– データは\url {https://github.com/mingzi151/AHC-SI}で公開されている。

要約(オリジナル)

It remains a question that how simultaneous interpretation (SI) data affects simultaneous machine translation (SiMT). Research has been limited due to the lack of a large-scale training corpus. In this work, we aim to fill in the gap by introducing NAIST-SIC-Aligned, which is an automatically-aligned parallel English-Japanese SI dataset. Starting with a non-aligned corpus NAIST-SIC, we propose a two-stage alignment approach to make the corpus parallel and thus suitable for model training. The first stage is coarse alignment where we perform a many-to-many mapping between source and target sentences, and the second stage is fine-grained alignment where we perform intra- and inter-sentence filtering to improve the quality of aligned pairs. To ensure the quality of the corpus, each step has been validated either quantitatively or qualitatively. This is the first open-sourced large-scale parallel SI dataset in the literature. We also manually curated a small test set for evaluation purposes. We hope our work advances research on SI corpora construction and SiMT. Please find our data at \url{https://github.com/mingzi151/AHC-SI}.

arxiv情報

著者 Jinming Zhao,Yuka Ko,Kosuke Doi,Ryo Fukuda,Katsuhito Sudoh,Satoshi Nakamura
発行日 2023-04-25 01:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク