Dialectal and Low-Resource Machine Translation for Aromanian

要約

この論文では、英語、ルーマニア語、および絶滅の危機に瀕している東方ロマンス言語であるアルーマニア語をサポートするニューラル機械翻訳システムを構築するプロセスについて説明します。
この研究の主な貢献は 2 つあります。(1) 79,000 文ペアからなるこれまでで最も広範なアルーマニア語とルーマニア語の対訳コーパスの作成、および (2) アルーマニア語に最適化されたいくつかの機械翻訳モデルの開発と比較分析です。
これを達成するために、テキスト マイニングと自動評価のための言語に依存しない文埋め込みモデルを含む一連の補助ツールを導入し、さまざまな筆記標準に対応する発音記号変換システムによって補完します。
この研究は、歴史的にリソースが不足していた言語に不可欠なリソースを確立することで、計算言語学と言語保存の取り組みの両方に貢献します。
すべてのデータセット、トレーニング済みモデル、および関連ツールは公開されています: https://huggingface.co/aronlp および https://arotranslate.com

要約(オリジナル)

This paper presents the process of building a neural machine translation system with support for English, Romanian, and Aromanian – an endangered Eastern Romance language. The primary contribution of this research is twofold: (1) the creation of the most extensive Aromanian-Romanian parallel corpus to date, consisting of 79,000 sentence pairs, and (2) the development and comparative analysis of several machine translation models optimized for Aromanian. To accomplish this, we introduce a suite of auxiliary tools, including a language-agnostic sentence embedding model for text mining and automated evaluation, complemented by a diacritics conversion system for different writing standards. This research brings contributions to both computational linguistics and language preservation efforts by establishing essential resources for a historically under-resourced language. All datasets, trained models, and associated tools are public: https://huggingface.co/aronlp and https://arotranslate.com

arxiv情報

著者 Alexandru-Iulius Jerpelea,Alina Rădoi,Sergiu Nisioi
発行日 2025-01-07 11:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク