要約
低リソース言語のゼロショットという名前のエンティティ認識(NER)に対する既存のアプローチは、主に機械翻訳に依存していましたが、より最近の方法は音素表現に焦点を変えています。
これに基づいて、同様の音声特性を持つ言語間のIPA転写の音素表現ギャップを減らすことにより、高リソース言語でトレーニングされたモデルが低リソース言語で効果的に機能する方法を調査します。
この作業では、10の頻繁に使用される言語ファミリからの10の英語と高リソースの言語IPAペアを含むIPA(CONLIPA)データセットを使用した対照的な学習を提案します。
また、CONLIPAデータセットを使用して、言語間IPAコントラスト学習方法(IPAC)を提案します。
さらに、提案されているデータセットと方法論は、最高のパフォーマンスのベースラインと比較した場合、かなりの平均増加を示します。
要約(オリジナル)
Existing approaches to zero-shot Named Entity Recognition (NER) for low-resource languages have primarily relied on machine translation, whereas more recent methods have shifted focus to phonemic representation. Building upon this, we investigate how reducing the phonemic representation gap in IPA transcription between languages with similar phonetic characteristics enables models trained on high-resource languages to perform effectively on low-resource languages. In this work, we propose CONtrastive Learning with IPA (CONLIPA) dataset containing 10 English and high resource languages IPA pairs from 10 frequently used language families. We also propose a cross-lingual IPA Contrastive learning method (IPAC) using the CONLIPA dataset. Furthermore, our proposed dataset and methodology demonstrate a substantial average gain when compared to the best performing baseline.
arxiv情報
著者 | Jimin Sohn,David R. Mortensen |
発行日 | 2025-03-10 11:52:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google