NAIST-SIC-Aligned: Automatically-Aligned English-Japanese Simultaneous Interpretation Corpus

要約

【タイトル】NAIST-SIC-Aligned: 自動アラインメントされた英日同時通訳コーパス

【要約】

– 同時通訳データが同時機械翻訳(SiMT)にどのように影響するかはまだ不明確である。
– 大規模なトレーニングコーパスの欠如により、研究は限定されていた。
– 「NAIST-SIC-Aligned」は、自動的にアラインメントされた並列英日同時通訳データセットであり、この問題を解決することを目的としている。
– 非アラインメントコーパスNAIST-SICを開始点とし、2段階のアラインメントアプローチを提案して、モデルトレーニングに適した並列コーパスを作成する。
– 最初の段階は粗いアラインメントであり、ソースとターゲットの文の多対多のマッピングを実行し、2番目の段階は細かいアラインメントであり、アラインされたペアの品質を改善するための内部および外部文のフィルタリングを実行する。
– すべてのステップは、定量的または定性的に検証され、コーパスの品質が確保されている。
– これは、文献で最初のオープンソース大規模並列SIデータセットである。
– 評価目的のために、小規模なテストセットも手動でキュレーションしている。
– 研究が進むことを期待し、データは\url{https://github.com/mingzi151/AHC-SI}で公開されている。

要約(オリジナル)

It remains a question that how simultaneous interpretation (SI) data affects simultaneous machine translation (SiMT). Research has been limited due to the lack of a large-scale training corpus.In this work, we aim to fill in the gap by introducing \emph{NAIST-SIC-Aligned}, which is an automatically-aligned parallel English-Japanese SI dataset. Starting with a non-aligned corpus NAIST-SIC, we propose a two-stage alignment approach to make the corpus parallel and thus suitable for model training. The first stage is coarse alignment where we perform a many-to-many mapping between source and target sentences, and the second stage is fine-grained alignment where we perform intra- and inter-sentence filtering to improve the quality of aligned pairs. To ensure the quality of the corpus, each step has been validated either quantitatively or qualitatively. This is the first open-sourced large-scale parallel SI dataset in the literature. We also manually curated a small test set for evaluation purposes. We hope our work advances research on SI corpora construction and SiMT. Please find our data at \url{https://github.com/mingzi151/AHC-SI}.

arxiv情報

著者 Jinming Zhao,Yuka Ko,Kosuke Doi,Ryo Fukuda,Katsuhito Sudoh,Satoshi Nakamura
発行日 2023-04-23 23:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク