Enhancing Cross-lingual Transfer via Phonemic Transcription Integration


異なる筆記体による言語間のギャップを軽減するために、私たちは、言語を越えた伝達のための従来の正書法転写を超える追加の言語モダリティとして音素転写を組み込んだフレームワークである PhoneXL を提案します。
特に、我々は、(1) 2 つの異なるモダリティ間のローカルな 1 対 1 のアライメント、(2) 追加のモダリティからの情報を活用するためのマルチモダリティ コンテキストを介したアライメント、および (3) 多言語コンテキストを介したアライメントをキャプチャするための教師なしアライメント目標を提案します。
また、研究は十分ではないが相互接続されている中国語、日本語、韓国語、ベトナム語 (CJKV) 言語間の 2 つのトークンレベルのタスク (固有表現認識と品詞タグ付け) に関する最初の音素正書法アライメント データセットもリリースします。
私たちのパイロット調査では、音素転写が正書法を超えた重要な情報を提供し、言語間伝達を強化し、CJKV 言語間のギャップを埋めることで、正書法ベースの多言語 PLM よりも言語間トークンレベルのタスクの一貫した改善につながることが明らかになりました。


Previous cross-lingual transfer methods are restricted to orthographic representation learning via textual scripts. This limitation hampers cross-lingual transfer and is biased towards languages sharing similar well-known scripts. To alleviate the gap between languages from different writing scripts, we propose PhoneXL, a framework incorporating phonemic transcriptions as an additional linguistic modality beyond the traditional orthographic transcriptions for cross-lingual transfer. Particularly, we propose unsupervised alignment objectives to capture (1) local one-to-one alignment between the two different modalities, (2) alignment via multi-modality contexts to leverage information from additional modalities, and (3) alignment via multilingual contexts where additional bilingual dictionaries are incorporated. We also release the first phonemic-orthographic alignment dataset on two token-level tasks (Named Entity Recognition and Part-of-Speech Tagging) among the understudied but interconnected Chinese-Japanese-Korean-Vietnamese (CJKV) languages. Our pilot study reveals phonemic transcription provides essential information beyond the orthography to enhance cross-lingual transfer and bridge the gap among CJKV languages, leading to consistent improvements on cross-lingual token-level tasks over orthographic-based multilingual PLMs.


著者 Hoang H. Nguyen,Chenwei Zhang,Tao Zhang,Eugene Rohrbaugh,Philip S. Yu
発行日 2023-07-10 06:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク