GrEmLIn: A Repository of Green Baseline Embeddings for 87 Low-Resource Languages Injected with Multilingual Graph Knowledge

要約

大規模な言語モデル(LLM)に基づくコンテキスト化された埋め込みは、さまざまな言語で利用できますが、リソースの低い言語ではカバレッジが制限されることがよくあります。
このような言語にLLMを使用することは、計算コストが高いために困難なことがよくあります。
トレーニング中だけでなく、推論中も。
静的な単語の埋め込みは、リソース効率がはるかに高く(「緑」)、特に非常に低リソース言語で価値を提供します。
ただし、多様な言語用のこのような埋め込みを備えた包括的なリポジトリの顕著な不足があります。
このギャップに対処するために、87の中および低リソース言語の緑の静的ベースライン埋め込みの集中リポジトリであるグレムリンを提示します。
グレムリンの埋め込みは、多言語グラフの知識を統合することによりグローブの埋め込みを強化する新しい方法で計算します。
私たちの実験は、グレムリンの埋め込みが、語彙の類似性のタスクに関して、E5から最先端のコンテキスト化された埋め込みを上回ることを示しています。
それらは、センチメント分析や自然言語の推論などの外因性評価タスクで競争力を維持し、ターゲットタスクと十分な語彙オーバーラップを考えると、最先端のモデルと比較して平均パフォーマンスギャップがわずか5〜10 \%以下で、
トピック分類でのみパフォーマンスが低い。
私たちのコードと埋め込みは、https://huggingface.co/dfkiで公開されています。

要約(オリジナル)

Contextualized embeddings based on large language models (LLMs) are available for various languages, but their coverage is often limited for lower resourced languages. Using LLMs for such languages is often difficult due to a high computational cost; not only during training, but also during inference. Static word embeddings are much more resource-efficient (‘green’), and thus still provide value, particularly for very low-resource languages. There is, however, a notable lack of comprehensive repositories with such embeddings for diverse languages. To address this gap, we present GrEmLIn, a centralized repository of green, static baseline embeddings for 87 mid- and low-resource languages. We compute GrEmLIn embeddings with a novel method that enhances GloVe embeddings by integrating multilingual graph knowledge, which makes our static embeddings competitive with LLM representations, while being parameter-free at inference time. Our experiments demonstrate that GrEmLIn embeddings outperform state-of-the-art contextualized embeddings from E5 on the task of lexical similarity. They remain competitive in extrinsic evaluation tasks like sentiment analysis and natural language inference, with average performance gaps of just 5-10\% or less compared to state-of-the-art models, given a sufficient vocabulary overlap with the target task, and underperform only on topic classification. Our code and embeddings are publicly available at https://huggingface.co/DFKI.

arxiv情報

著者 Daniil Gurgurov,Rishu Kumar,Simon Ostermann
発行日 2025-01-27 11:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク