EthioMT: Parallel Corpus for Low-resource Ethiopian Languages

要約

自然言語処理 (NLP) の最近の研究は、機械翻訳 (MT)、ニュース分類、高リソース言語での質問応答などのタスクで目覚ましいパフォーマンスを達成しました。
ただし、MT のパフォーマンスは、低リソース言語にとってはまだ不十分な点が多くあります。
これは、これらの言語で利用可能な対訳コーパスが存在するとしても、そのサイズが小さいためです。
エチオピア言語の NLP も、MT を含む NLP タスク用の公的にアクセス可能なデータセットが利用できないため、同じ問題に悩まされています。
研究コミュニティを支援し、エチオピア言語の研究を促進するために、私たちは 15 言語の新しい対訳コーパスである EthioMT を導入します。
また、エチオピアでよく研究されている言語のデータセットを収集して、新しいベンチマークを作成します。
私たちは、トランスフォーマーと微調整アプローチを使用して、エチオピアの 23 言語の新しく収集されたコーパスとベンチマーク データセットを評価します。

要約(オリジナル)

Recent research in natural language processing (NLP) has achieved impressive performance in tasks such as machine translation (MT), news classification, and question-answering in high-resource languages. However, the performance of MT leaves much to be desired for low-resource languages. This is due to the smaller size of available parallel corpora in these languages, if such corpora are available at all. NLP in Ethiopian languages suffers from the same issues due to the unavailability of publicly accessible datasets for NLP tasks, including MT. To help the research community and foster research for Ethiopian languages, we introduce EthioMT — a new parallel corpus for 15 languages. We also create a new benchmark by collecting a dataset for better-researched languages in Ethiopia. We evaluate the newly collected corpus and the benchmark dataset for 23 Ethiopian languages using transformer and fine-tuning approaches.

arxiv情報

著者 Atnafu Lambebo Tonja,Olga Kolesnikova,Alexander Gelbukh,Jugal Kalita
発行日 2024-03-28 12:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク