要約
タイトル: 近縁言語を介した低資源言語への伝達: フェロー諸語を用いたケーススタディ
要約:
– 多言語モデルは、クロスリンガルNLP転送の最先端を推進している。
– ただし、ゼロショットクロスリンガル転送の大部分は、その対象言語が他の言語との類型、語源、系統的関係にかかわらず、同じ大量の多言語トランスフォーマー(mBERTやXLM-Rなど)を使って転送する。
– 特に、すでに存在するリソース豊富な姉妹言語のデータやモデルは、しばしば無視される。
– この研究では、資源が少ないフェロー諸語のケーススタディを行い、系統情報を活用し、’one-size-fits-all’ のパラダイムから脱却することで、資源が少ない言語へのクロスリンガル転送を改善できることを実証する。
– 具体的には、他のスカンジナビア言語(デンマーク語、ノルウェー語、スウェーデン語、アイスランド語)の豊富な資源をフェロー諸語のために利用する。
– 評価結果から、近縁な資源豊富な言語のデータとモデルを利用することで、フェロー語への転送性能を大幅に改善できることがわかった。
– さらに、フェロー語の新しいウェブコーパスや、固有表現認識(NER)や意味的テキスト類似性(STS)のためのフェロー諸語データセット、すべてのスカンディナビア言語で訓練された新しい言語モデルも公開する。
要約(オリジナル)
Multilingual language models have pushed state-of-the-art in cross-lingual NLP transfer. The majority of zero-shot cross-lingual transfer, however, use one and the same massively multilingual transformer (e.g., mBERT or XLM-R) to transfer to all target languages, irrespective of their typological, etymological, and phylogenetic relations to other languages. In particular, readily available data and models of resource-rich sibling languages are often ignored. In this work, we empirically show, in a case study for Faroese — a low-resource language from a high-resource language family — that by leveraging the phylogenetic information and departing from the ‘one-size-fits-all’ paradigm, one can improve cross-lingual transfer to low-resource languages. In particular, we leverage abundant resources of other Scandinavian languages (i.e., Danish, Norwegian, Swedish, and Icelandic) for the benefit of Faroese. Our evaluation results show that we can substantially improve the transfer performance to Faroese by exploiting data and models of closely-related high-resource languages. Further, we release a new web corpus of Faroese and Faroese datasets for named entity recognition (NER), semantic text similarity (STS), and new language models trained on all Scandinavian languages.
arxiv情報
著者 | Vésteinn Snæbjarnarson,Annika Simonsen,Goran Glavaš,Ivan Vulić |
発行日 | 2023-04-18 08:42:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI