要約
多言語モデルは、自然言語処理の急速な進歩のために大幅に進歩しています。
多様な多言語データセットで訓練されたBloom 1.7Bのようなモデルは、言語のギャップを橋渡しすることを目指しています。
ただし、特に低リソース言語の言語知識をキャプチャする上での有効性は、未解決の問題のままです。
この研究では、多言語の理解、セマンティック表現、および言語間の知識移転におけるMLMS機能を批判的に調べます。
これらのモデルは高品質の言語ではうまく機能しますが、あまり表現されていない言語と格闘しています。
さらに、従来の評価方法は、多くの場合、内部の構文とセマンティックエンコーディングを見落としています。
この研究は、3つの目的を通じて重要な制限に対処しています。
まず、コサインの類似性を使用して一貫性のために多言語の単語埋め込みを分析することにより、セマンティックの類似性を評価します。
第二に、名前付きのエンティティ認識と文の類似性タスクを介してBloom-1.7BとQWEN2を調べて、それらの言語構造を理解します。
第三に、センチメント分析とテキスト分類において、高リソースから低リソース言語への一般化を評価することにより、言語間の知識移転を調査します。
言語の調査、パフォーマンスメトリック、視覚化を活用することにより、この研究はMLMの強みと制限に関する洞察を提供します。
調査結果は、多言語NLPモデルを強化し、高リソース言語と低リソース言語の両方のより良いサポートを確保し、それによって言語技術の包括性を促進することを目的としています。
要約(オリジナル)
Multilingual language models have significantly advanced due to rapid progress in natural language processing. Models like BLOOM 1.7B, trained on diverse multilingual datasets, aim to bridge linguistic gaps. However, their effectiveness in capturing linguistic knowledge, particularly for low-resource languages, remains an open question. This study critically examines MLMs capabilities in multilingual understanding, semantic representation, and cross-lingual knowledge transfer. While these models perform well for high-resource languages, they struggle with less-represented ones. Additionally, traditional evaluation methods often overlook their internal syntactic and semantic encoding. This research addresses key limitations through three objectives. First, it assesses semantic similarity by analyzing multilingual word embeddings for consistency using cosine similarity. Second, it examines BLOOM-1.7B and Qwen2 through Named Entity Recognition and sentence similarity tasks to understand their linguistic structures. Third, it explores cross-lingual knowledge transfer by evaluating generalization from high-resource to low-resource languages in sentiment analysis and text classification. By leveraging linguistic probing, performance metrics, and visualizations, this study provides insights into the strengths and limitations of MLMs. The findings aim to enhance multilingual NLP models, ensuring better support for both high- and low-resource languages, thereby promoting inclusivity in language technologies.
arxiv情報
著者 | Santhosh Kakarla,Gautama Shastry Bulusu Venkata,Aishwarya Gaddam |
発行日 | 2025-02-06 18:08:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google