要約
多言語言語の理解を向上させるアプローチでは、高リソース言語と低リソース言語間の大きなパフォーマンスのギャップに悩まされることがよくあります。
このようなギャップを軽減するために言語を単一の潜在空間に揃える取り組みは行われていますが、入力レベルの表現の違いがそのようなギャップにどのような影響を与えるか、特に音素入力に関しては調査されていません。
私たちは、パフォーマンスのギャップがこれらの言語間の表現の不一致によって影響を受けていると仮説を立て、これらの不一致を軽減する手段として音素表現の使用を再検討します。
音素表現の有効性を実証するために、合計 12 言語での 3 つの代表的な言語間タスクに関する実験を紹介します。
その結果、音素表現は正書法表現と比較して言語間の類似性が高く、リソースが比較的少ない言語では書記素ベースのベースライン モデルよりも一貫して優れていることが示されています。
我々は、音素表現の有効性を実証する 3 つの言語を超えたタスクからの定量的証拠を提示します。また、このことは、言語を超えたパフォーマンスのギャップの理論的分析によってさらに正当化されます。
要約(オリジナル)
Approaches to improving multilingual language understanding often struggle with significant performance gaps between high-resource and low-resource languages. While there are efforts to align the languages in a single latent space to mitigate such gaps, how different input-level representations influence such gaps has not been investigated, particularly with phonemic inputs. We hypothesize that the performance gaps are affected by representation discrepancies between these languages, and revisit the use of phonemic representations as a means to mitigate these discrepancies. To demonstrate the effectiveness of phonemic representations, we present experiments on three representative cross-lingual tasks on 12 languages in total. The results show that phonemic representations exhibit higher similarities between languages compared to orthographic representations, and it consistently outperforms grapheme-based baseline model on languages that are relatively low-resourced. We present quantitative evidence from three cross-lingual tasks that demonstrate the effectiveness of phonemic representations, and it is further justified by a theoretical analysis of the cross-lingual performance gap.
arxiv情報
著者 | Haeji Jung,Changdae Oh,Jooeon Kang,Jimin Sohn,Kyungwoo Song,Jinkyu Kim,David R. Mortensen |
発行日 | 2024-11-15 17:11:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google