要約
この論文では、インドの非常にリソースが少ない 13 言語 (すべてインド北東部から) の初期のバイリンガル コーパスの作成について説明します。
また、これらの言語での初期の翻訳作業の結果も示します。
これらの言語に対して史上初の並列コーパスを作成し、これらの言語の初期ベンチマーク ニューラル機械翻訳結果を提供します。
私たちは、これらのコーパスを拡張して、リソースの少ないインドの言語を多数含むようにし、アフリカ言語およびアメリカ・インド言語に関するこれまでの取り組みと統合して、世界中の多数の言語をカバーするコーパスを作成する予定です。
要約(オリジナル)
This paper presents the creation of initial bilingual corpora for thirteen very low-resource languages of India, all from Northeast India. It also presents the results of initial translation efforts in these languages. It creates the first-ever parallel corpora for these languages and provides initial benchmark neural machine translation results for these languages. We intend to extend these corpora to include a large number of low-resource Indian languages and integrate the effort with our prior work with African and American-Indian languages to create corpora covering a large number of languages from across the world.
arxiv情報
著者 | Atnafu Lambebo Tonja,Melkamu Mersha,Ananya Kalita,Olga Kolesnikova,Jugal Kalita |
発行日 | 2023-12-08 00:28:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google