First Attempt at Building Parallel Corpora for Machine Translation of Northeast India’s Very Low-Resource Languages

要約

この論文では、インドの非常にリソースが少ない 13 言語 (すべてインド北東部から) の初期のバイリンガル コーパスの作成について説明します。
また、これらの言語での初期の翻訳作業の結果も示します。
これらの言語に対して史上初の並列コーパスを作成し、これらの言語の初期ベンチマーク ニューラル機械翻訳結果を提供します。
私たちは、これらのコーパスを拡張して、リソースの少ないインドの言語を多数含むようにし、アフリカ言語およびアメリカ・インド言語に関するこれまでの取り組みと統合して、世界中の多数の言語をカバーするコーパスを作成する予定です。

要約(オリジナル)

This paper presents the creation of initial bilingual corpora for thirteen very low-resource languages of India, all from Northeast India. It also presents the results of initial translation efforts in these languages. It creates the first-ever parallel corpora for these languages and provides initial benchmark neural machine translation results for these languages. We intend to extend these corpora to include a large number of low-resource Indian languages and integrate the effort with our prior work with African and American-Indian languages to create corpora covering a large number of languages from across the world.

arxiv情報

著者 Atnafu Lambebo Tonja,Melkamu Mersha,Ananya Kalita,Olga Kolesnikova,Jugal Kalita
発行日 2023-12-08 00:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク