CORI: CJKV Benchmark with Romanization Integration — A step towards Cross-lingual Transfer Beyond Textual Scripts

要約

英語をソース言語として素朴に想定すると、言語接触の重要性を考慮できず、多くの言語の言語を越えた転移が妨げられる可能性があります。
一部の言語は他の言語よりも関連性が高く、ターゲット言語は密接に関連した言語から移行することで恩恵を受けることができます。
多くの言語では、密接に関連する言語のセットに英語は含まれません。
この研究では、言語を越えた伝達に対するソース言語の影響を研究し、ターゲット言語との接触が高いソース言語を選択することの重要性を示しています。
また、言語接触の詳細な研究をさらに促進するために、密接に接触する中国、日本、韓国、ベトナム語 (CJKV) 言語の新しいベンチマーク データセットを構築します。
これらの言語間の接触を包括的に把握するために、対照学習目標を介してテキストスクリプトを超えてローマ字表記を統合し、言語間の表現の強化と効果的なゼロショットの言語間の伝達につながることを提案します。

要約(オリジナル)

Naively assuming English as a source language may hinder cross-lingual transfer for many languages by failing to consider the importance of language contact. Some languages are more well-connected than others, and target languages can benefit from transferring from closely related languages; for many languages, the set of closely related languages does not include English. In this work, we study the impact of source language for cross-lingual transfer, demonstrating the importance of selecting source languages that have high contact with the target language. We also construct a novel benchmark dataset for close contact Chinese-Japanese-Korean-Vietnamese (CJKV) languages to further encourage in-depth studies of language contact. To comprehensively capture contact between these languages, we propose to integrate Romanized transcription beyond textual scripts via Contrastive Learning objectives, leading to enhanced cross-lingual representations and effective zero-shot cross-lingual transfer.

arxiv情報

著者 Hoang H. Nguyen,Chenwei Zhang,Ye Liu,Natalie Parde,Eugene Rohrbaugh,Philip S. Yu
発行日 2024-04-19 04:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク