要約
この研究では、カラカルパク言語に対するいくつかの貢献を紹介します。カラカルパクに翻訳された FLORES+ devtest データセット、ウズベク語-カラカルパク語、ロシア語-カラカルパク語、および英語-カラカルパク語のそれぞれ 100,000 ペアの並列コーパス、およびこれらの言語間での翻訳用のオープンソースの微調整されたニューラル モデルです。
。
私たちの実験では、さまざまなモデルのバリアントとトレーニング アプローチを比較し、既存のベースラインに対する改善を実証しています。
この作業は、Open Language Data Initiative (OLDI) の共有タスクの一部として実施され、Karakalpak の機械翻訳機能を向上させ、NLP テクノロジーにおける言語多様性の拡大に貢献することを目的としています。
要約(オリジナル)
This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.
arxiv情報
| 著者 | Mukhammadsaid Mamasaidov,Abror Shopulatov |
| 発行日 | 2024-09-06 13:25:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google