Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

要約

この研究では、カラカルパク言語に対するいくつかの貢献を紹介します。カラカルパクに翻訳された FLORES+ devtest データセット、ウズベク語-カラカルパク語、ロシア語-カラカルパク語、および英語-カラカルパク語のそれぞれ 100,000 ペアの並列コーパス、およびこれらの言語間での翻訳用のオープンソースの微調整されたニューラル モデルです。

私たちの実験では、さまざまなモデルのバリアントとトレーニング アプローチを比較し、既存のベースラインに対する改善を実証しています。
この作業は、Open Language Data Initiative (OLDI) の共有タスクの一部として実施され、Karakalpak の機械翻訳機能を向上させ、NLP テクノロジーにおける言語多様性の拡大に貢献することを目的としています。

要約(オリジナル)

This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.

arxiv情報

著者 Mukhammadsaid Mamasaidov,Abror Shopulatov
発行日 2024-09-06 13:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク