Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages

要約

数百万トークン相当のデータしか持たない非常にリソースの少ない言語は、言語間の単語表現の品質が低いため、多言語 NLP アプローチでは十分にサポートされません。
最近の研究では、ソース言語がリソースの少ないターゲット言語に関連している場合、優れた言語間パフォーマンスが達成できることが示されました。
ただし、すべての言語ペアが関連しているわけではありません。
この論文では、遠く離れたソースとターゲットの間のギャップを埋めるために中間関連言語を組み込む、新しい言語チェーンベースのアプローチを通じて多言語単語埋め込み (MWE) を構築することを提案します。
リソースが豊富なソースから開始して、ターゲットに到達するまでチェーン内の各言語を順次追加することで、一度に 1 言語ずつ MWE を構築します。
我々は、ターゲット言語を多言語空間の周囲に固定することによって、以前の研究の主な弱点、つまり独立してトレーニングされた単言語埋め込みを排除するために、半共同バイリンガルアプローチを複数言語に拡張しました。
私たちは、4 つの非常に低リソース (<500 万トークン) のターゲット言語と 4 つの中程度に低リソース (<5000 万) のターゲット言語を含む 4 つの言語族に対するバイリンガル語彙誘導の手法を評価し、両方のカテゴリでパフォーマンスの向上を示しました。 さらに、私たちの分析では、中間言語に対する高品質の埋め込みの重要性と、多言語空間におけるすべての言語のアンカー ポイントを活用することの重要性が明らかになりました。

要約(オリジナル)

Very low-resource languages, having only a few million tokens worth of data, are not well-supported by multilingual NLP approaches due to poor quality cross-lingual word representations. Recent work showed that good cross-lingual performance can be achieved if a source language is related to the low-resource target language. However, not all language pairs are related. In this paper, we propose to build multilingual word embeddings (MWEs) via a novel language chain-based approach, that incorporates intermediate related languages to bridge the gap between the distant source and target. We build MWEs one language at a time by starting from the resource rich source and sequentially adding each language in the chain till we reach the target. We extend a semi-joint bilingual approach to multiple languages in order to eliminate the main weakness of previous works, i.e., independently trained monolingual embeddings, by anchoring the target language around the multilingual space. We evaluate our method on bilingual lexicon induction for 4 language families, involving 4 very low-resource (<5M tokens) and 4 moderately low-resource (<50M) target languages, showing improved performance in both categories. Additionally, our analysis reveals the importance of good quality embeddings for intermediate languages as well as the importance of leveraging anchor points from all languages in the multilingual space.

arxiv情報

著者 Viktor Hangya,Silvia Severini,Radoslav Ralev,Alexander Fraser,Hinrich Schütze
発行日 2023-11-21 09:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク