Toucan: Many-to-Many Translation for 150 African Language Pairs

要約

私たちは、アフリカ言語に特に焦点を当て、低リソース言語の機械翻訳 (MT) を改善するために設計されたリソースのコレクションを導入することで、自然言語処理 (NLP) の顕著なギャップに対処します。
まず、それぞれ 12 億と 37 億のパラメーターを持つ 2 つの言語モデル (LM)、Cheetah-1.2B と Cheetah-3.7B を導入します。
次に、前述のモデルを微調整して、156 のアフリカ言語ペアをサポートするように設計されたアフリカ中心の機械翻訳モデルであるオオハシを作成します。
Toucan を評価するために、私たちは機械翻訳の評価用に調整された、AfroLingu-MT と呼ばれる広範な機械翻訳ベンチマークを慎重に開発しました。
Toucan は他のモデルを大幅に上回り、アフリカ言語の MT でその顕著なパフォーマンスを示しています。
最後に、新しいモデル spBLEU-1K をトレーニングして、614 のアフリカ言語を含む 1,000 の言語をカバーする翻訳評価メトリクスを強化します。
この取り組みは、特にアフリカなど言語資源が限られている地域において、異文化理解と知識交換を促進し、NLP の分野を発展させることを目的としています。
Toucan プロジェクトの GitHub リポジトリは、https://github.com/UBC-NLP/Toucan で利用できます。

要約(オリジナル)

We address a notable gap in Natural Language Processing (NLP) by introducing a collection of resources designed to improve Machine Translation (MT) for low-resource languages, with a specific focus on African languages. First, we introduce two language models (LMs), Cheetah-1.2B and Cheetah-3.7B, with 1.2 billion and 3.7 billion parameters respectively. Next, we finetune the aforementioned models to create toucan, an Afrocentric machine translation model designed to support 156 African language pairs. To evaluate Toucan, we carefully develop an extensive machine translation benchmark, dubbed AfroLingu-MT, tailored for evaluating machine translation. Toucan significantly outperforms other models, showcasing its remarkable performance on MT for African languages. Finally, we train a new model, spBLEU-1K, to enhance translation evaluation metrics, covering 1K languages, including 614 African languages. This work aims to advance the field of NLP, fostering cross-cultural understanding and knowledge exchange, particularly in regions with limited language resources such as Africa. The GitHub repository for the Toucan project is available at https://github.com/UBC-NLP/Toucan.

arxiv情報

著者 AbdelRahim Elmadany,Ife Adebara,Muhammad Abdul-Mageed
発行日 2024-07-12 17:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク