IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages

要約

インドには、10 億人以上の人々が話す 4 つの主要な言語族の言語が存在する豊かな言語環境があります。
インド憲法に記載されているこれらの言語のうち 22 言語 (予定言語と呼ばれます) がこの研究の焦点です。
言語の多様性を考慮すると、インドのような国では高品質でアクセスしやすい機械翻訳 (MT) システムが不可欠です。
この作業の前には、(i) 22 言語すべてにまたがる並列トレーニング データは存在せず、(ii) これらすべての言語をカバーし、インドに関連するコンテンツを含む堅牢なベンチマークは存在せず、(iii) 22 言語すべてをサポートする既存の翻訳モデルは存在しませんでした。
インドの予定言語。
この取り組みでは、予定されているインドの 22 言語すべてに対する優れた機械翻訳システムへの広範で簡単かつオープンなアクセスを可能にするために必要な欠落部分に焦点を当て、このギャップに対処することを目指しています。
私たちは、大規模なトレーニング データセットのキュレーションと作成、多様で高品質のベンチマークの作成、多言語モデルのトレーニング、オープン アクセスでのモデルのリリースという 4 つの主要な改善領域を特定しています。
私たちの最初の貢献は、インド言語の最大の公的対訳コーパスである Bharat 対訳コーパス コレクション (BPCC) のリリースです。
BPCC には合計 2 億 3,000 万のバイテキスト ペアが含まれており、そのうち合計 1 億 2,600 万のバイテキスト ペアが新たに追加され、この作業の一部として作成された 64 万 4,000 の手動翻訳文ペアが含まれています。
私たちの 2 番目の貢献は、インドの 22 言語すべてをカバーする最初の n-way 並列ベンチマークのリリースであり、多様なドメイン、インド起源のコンテンツ、およびソース元のテスト セットを特徴としています。
次に、22 言語すべてをサポートする最初のモデルである IndicTrans2 を紹介します。このモデルは、この作業の一環として作成された複数の既存および新規ベンチマークで既存のモデルを上回っています。
最後に、アクセシビリティとコラボレーションを促進するために、モデルと関連データを寛容なライセンスで https://github.com/ai4bharat/IndicTrans2 でリリースします。

要約(オリジナル)

India has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of India (referred to as scheduled languages) are the focus of this work. Given the linguistic diversity, high-quality and accessible Machine Translation (MT) systems are essential in a country like India. Prior to this work, there was (i) no parallel training data spanning all the 22 languages, (ii) no robust benchmarks covering all these languages and containing content relevant to India, and (iii) no existing translation models which support all the 22 scheduled languages of India. In this work, we aim to address this gap by focusing on the missing pieces required for enabling wide, easy, and open access to good machine translation systems for all 22 scheduled Indian languages. We identify four key areas of improvement: curating and creating larger training datasets, creating diverse and high-quality benchmarks, training multilingual models, and releasing models with open access. Our first contribution is the release of the Bharat Parallel Corpus Collection (BPCC), the largest publicly available parallel corpora for Indic languages. BPCC contains a total of 230M bitext pairs, of which a total of 126M were newly added, including 644K manually translated sentence pairs created as part of this work. Our second contribution is the release of the first n-way parallel benchmark covering all 22 Indian languages, featuring diverse domains, Indian-origin content, and source-original test sets. Next, we present IndicTrans2, the first model to support all 22 languages, surpassing existing models on multiple existing and new benchmarks created as a part of this work. Lastly, to promote accessibility and collaboration, we release our models and associated data with permissive licenses at https://github.com/ai4bharat/IndicTrans2.

arxiv情報

著者 AI4Bharat,Jay Gala,Pranjal A. Chitale,Raghavan AK,Sumanth Doddapaneni,Varun Gumma,Aswanth Kumar,Janki Nawale,Anupama Sujatha,Ratish Puduppully,Vivek Raghavan,Pratyush Kumar,Mitesh M. Khapra,Raj Dabre,Anoop Kunchukuttan
発行日 2023-05-25 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク