A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining

要約

クラウドソーシングを使用して、対訳文書を含む対訳 Web サイトの URL ペア (対訳トップ ページ ペア) を 10,000 以上収集し、これらの Web サイトから 460 万文対の日中対訳コーパスを作成しました。
文書と文の整合には、16万語のペアからなる日中対訳辞書を使用しました。
次に、高品質の 120 万の日中文ペアを使用して、統計的言語モデルと単語の翻訳確率に基づいて並列コーパス フィルターをトレーニングしました。
これらの 460 万文のペアでトレーニングされたモデルの翻訳精度を、グローバル ウェブ マイニングの並列コーパスである CCMatrix (1240 万) の日本語と中国語の文ペアでトレーニングされたモデルの翻訳精度を比較しました。
私たちのコーパスのサイズは CCMatrix のわずか 3 分の 1 ですが、2 つのモデルの精度が同等であることがわかり、並列データの Web マイニングにクラウドソーシングを使用できることが確認されました。

要約(オリジナル)

Using crowdsourcing, we collected more than 10,000 URL pairs (parallel top page pairs) of bilingual websites that contain parallel documents and created a Japanese-Chinese parallel corpus of 4.6M sentence pairs from these websites. We used a Japanese-Chinese bilingual dictionary of 160K word pairs for document and sentence alignment. We then used high-quality 1.2M Japanese-Chinese sentence pairs to train a parallel corpus filter based on statistical language models and word translation probabilities. We compared the translation accuracy of the model trained on these 4.6M sentence pairs with that of the model trained on Japanese-Chinese sentence pairs from CCMatrix (12.4M), a parallel corpus from global web mining. Although our corpus is only one-third the size of CCMatrix, we found that the accuracy of the two models was comparable and confirmed that it is feasible to use crowdsourcing for web mining of parallel data.

arxiv情報

著者 Masaaki Nagata,Makoto Morishita,Katsuki Chousa,Norihito Yasuda
発行日 2024-05-15 00:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク