Curated Datasets and Neural Models for Machine Translation of Informal Registers between Mayan and Spanish Vernaculars

要約

マヤ言語は、古代の歴史、数百万人の話者、計り知れない文化的価値を持つ言語族で構成されていますが、資源と世界的な露出の点で依然として著しく過小評価されています。
この論文では、グアテマラとメキシコ南部で話されているいくつかのマヤ言語による一連のコーパス (MayanV と呼ばれます) を開発、管理し、公開します。
データセットは、この地域の主要言語であるスペイン語と並行しており、非公式で日常的な、ドメイン固有ではない言語を表すことに重点を置いた公式のネイティブ ソースから取得されています。
そのため、私たちの弁証法分析によると、それらは他のほとんどの利用可能なリソースとは登録範囲が異なります。
さらに、できるだけ多くのリソースとマヤ言語でトレーニングされ、データセットのみで評価されたニューラル機械翻訳モデルを提示します。
私たちは、私たちのリソース内のスペイン語の方言と、より広く普及している標準的なスペイン語との間に語彙の相違があることを観察しています。また、私たちが提示するリソース以外のリソースでは翻訳パフォーマンスが向上するようには見えず、そのようなリソースの多くが一般的で現実的なものを正確に捉えていない可能性があることを示しています。
-生活言語の使用法。
MayanV データセットは https://github.com/transducens/mayanv で入手できます。

要約(オリジナル)

The Mayan languages comprise a language family with an ancient history, millions of speakers, and immense cultural value, that, nevertheless, remains severely underrepresented in terms of resources and global exposure. In this paper we develop, curate, and publicly release a set of corpora in several Mayan languages spoken in Guatemala and Southern Mexico, which we call MayanV. The datasets are parallel with Spanish, the dominant language of the region, and are taken from official native sources focused on representing informal, day-to-day, and non-domain-specific language. As such, and according to our dialectometric analysis, they differ in register from most other available resources. Additionally, we present neural machine translation models, trained on as many resources and Mayan languages as possible, and evaluated exclusively on our datasets. We observe lexical divergences between the dialects of Spanish in our resources and the more widespread written standard of Spanish, and that resources other than the ones we present do not seem to improve translation performance, indicating that many such resources may not accurately capture common, real-life language usage. The MayanV dataset is available at https://github.com/transducens/mayanv.

arxiv情報

著者 Andrés Lou,Juan Antonio Pérez-Ortiz,Felipe Sánchez-Martínez,Víctor M. Sánchez-Cartagena
発行日 2024-04-11 12:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク