BhashaVerse : Translation Ecosystem for Indian Subcontinent Languages

要約

この文書は、アッサム語、アワディー語、ベンガル語、ボージュプリ語、ブラジ語、ボド語、ドグリ語、英語、コンカニ語、ゴンディ語、グジャラート語、ヒンディー語、ヒンディー語、ホー語、カンナダ語、カングリ語、カシミール語を含む 36 のインド言語の翻訳モデルと関連アプリケーションの開発に焦点を当てています。
アラビア語とデーヴァナーガリー語)、カーシ語、ミゾ語、マガヒ語、マイティリ語、マラヤーラム語、マラーティー語、マニプリ語
(ベンガル語とメイテイ)、ネパール語、オリヤー語、パンジャブ語、サンスクリット語、サンタリ語、シンハラ語、シンド語 (アラビア語とデヴァナーガリー語)、タミル語、トゥルー語、テルグ語、ウルドゥー語。
これを達成するには、文字のバリエーション、音声の違い、構文の多様性などの課題に対処しながら、36 * 36 の言語ペアすべてに対応する他の種類のコーパスが必要です。
たとえば、複数の文字を使用するカシミール語やシンド語などの言語では、調整のためにスクリプトの正規化が必要ですが、カーシ語やサンタリ語などの低リソース言語では、十分なカバレッジと品質を確保するために合成データの拡張が必要です。
これらの課題に対処するために、この研究では、既存のリソースの活用、並列データセットの開発、ドメイン固有のコーパスの生成、および合成データ技術の利用によるコーパス作成の戦略を提案します。
さらに、標準および談話レベルの翻訳、分野固有の翻訳、参考文献ベースおよび参考文献なしの評価、エラー分析、自動ポストエディットなど、さまざまな側面にわたって機械翻訳を評価します。
これらの要素を統合することで、この研究は、機械翻訳の品質を向上させ、言語的に多様なインドのエコシステムにおいて言語を超えたより良いコミュニケーションを可能にする包括的なフレームワークを確立します。

要約(オリジナル)

This paper focuses on developing translation models and related applications for 36 Indian languages, including Assamese, Awadhi, Bengali, Bhojpuri, Braj, Bodo, Dogri, English, Konkani, Gondi, Gujarati, Hindi, Hinglish, Ho, Kannada, Kangri, Kashmiri (Arabic and Devanagari), Khasi, Mizo, Magahi, Maithili, Malayalam, Marathi, Manipuri (Bengali and Meitei), Nepali, Oriya, Punjabi, Sanskrit, Santali, Sinhala, Sindhi (Arabic and Devanagari), Tamil, Tulu, Telugu, and Urdu. Achieving this requires parallel and other types of corpora for all 36 * 36 language pairs, addressing challenges like script variations, phonetic differences, and syntactic diversity. For instance, languages like Kashmiri and Sindhi, which use multiple scripts, demand script normalization for alignment, while low-resource languages such as Khasi and Santali require synthetic data augmentation to ensure sufficient coverage and quality. To address these challenges, this work proposes strategies for corpus creation by leveraging existing resources, developing parallel datasets, generating domain-specific corpora, and utilizing synthetic data techniques. Additionally, it evaluates machine translation across various dimensions, including standard and discourse-level translation, domain-specific translation, reference-based and reference-free evaluation, error analysis, and automatic post-editing. By integrating these elements, the study establishes a comprehensive framework to improve machine translation quality and enable better cross-lingual communication in India’s linguistically diverse ecosystem.

arxiv情報

著者 Vandan Mujadia,Dipti Misra Sharma
発行日 2024-12-05 17:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク