KazParC: Kazakh Parallel Corpus for Machine Translation

要約

カザフ語、英語、ロシア語、トルコ語の機械翻訳用に設計された対訳コーパスである KazParC を紹介します。
この種のコーパスとしては初にして最大の公的コーパスである KazParC には、さまざまな分野をカバーし、人間の翻訳者の支援を受けて開発された 371,902 の並列文のコレクションが含まれています。
私たちの研究努力は、Tilmash という愛称のニューラル機械翻訳モデルの開発にも及んでいます。
注目すべきことに、BLEU や chrF などの標準的な評価指標で測定した場合、Tilmash のパフォーマンスは、Google 翻訳や Yandex Translate などの業界大手のパフォーマンスと同等であり、場合によってはそれを上回っています。
KazParC と Tilmash は両方とも、クリエイティブ コモンズ表示 4.0 国際ライセンス (CC BY 4.0) に基づいて、GitHub リポジトリを通じてオープンにダウンロードできます。

要約(オリジナル)

We introduce KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish. The first and largest publicly available corpus of its kind, KazParC contains a collection of 371,902 parallel sentences covering different domains and developed with the assistance of human translators. Our research efforts also extend to the development of a neural machine translation model nicknamed Tilmash. Remarkably, the performance of Tilmash is on par with, and in certain instances, surpasses that of industry giants, such as Google Translate and Yandex Translate, as measured by standard evaluation metrics, such as BLEU and chrF. Both KazParC and Tilmash are openly available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.

arxiv情報

著者 Rustem Yeshpanov,Alina Polonskaya,Huseyin Atakan Varol
発行日 2024-03-28 13:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク