要約
低リソース言語の自然言語処理 (NLP) には、特に高品質の注釈付きデータと言語リソースの不足により、重大な課題が生じます。
埋め込みの選択は、特にマラーティー語のような低リソース言語の場合、ニュース分類、感情分析、ヘイトスピーチ検出などの NLP タスクのパフォーマンスを向上させる上で重要な役割を果たします。
この研究では、マラーティー語に特有の NLP 分類タスクに対する、コンテキスト BERT ベース、非コンテキスト BERT ベース、および FastText ベースのさまざまな埋め込み技術の影響を調査します。
私たちの調査には、圧縮されたエンベディングと非圧縮のエンベディングの両方の徹底的な評価が含まれており、これらのエンベディングがさまざまなシナリオでどのように機能するかについての包括的な概要を提供します。
具体的には、2 つの BERT モデル エンベディング (Muril と MahaBERT)、および 2 つの FastText モデル エンベディング (IndicFT と MahaFT) を比較します。
私たちの評価には、タスク パフォーマンス評価のための多重ロジスティック回帰 (MLR) 分類器へのエンベディングの適用と、これらのエンベディングの空間分布を観察するための TSNE 視覚化が含まれます。
この結果は、コンテキストに基づく埋め込みが非コンテキストに基づく埋め込みよりも優れていることを示しています。
さらに、最初の BERT 埋め込み層から抽出された BERT ベースの非コンテキスト埋め込みは、FastText ベースの埋め込みよりも良い結果をもたらし、FastText 埋め込みの潜在的な代替手段を示唆しています。
要約(オリジナル)
Natural Language Processing (NLP) for low-resource languages presents significant challenges, particularly due to the scarcity of high-quality annotated data and linguistic resources. The choice of embeddings plays a critical role in enhancing the performance of NLP tasks, such as news classification, sentiment analysis, and hate speech detection, especially for low-resource languages like Marathi. In this study, we investigate the impact of various embedding techniques- Contextual BERT-based, Non-Contextual BERT-based, and FastText-based on NLP classification tasks specific to the Marathi language. Our research includes a thorough evaluation of both compressed and uncompressed embeddings, providing a comprehensive overview of how these embeddings perform across different scenarios. Specifically, we compare two BERT model embeddings, Muril and MahaBERT, as well as two FastText model embeddings, IndicFT and MahaFT. Our evaluation includes applying embeddings to a Multiple Logistic Regression (MLR) classifier for task performance assessment, as well as TSNE visualizations to observe the spatial distribution of these embeddings. The results demonstrate that contextual embeddings outperform non-contextual embeddings. Furthermore, BERT-based non-contextual embeddings extracted from the first BERT embedding layer yield better results than FastText-based embeddings, suggesting a potential alternative to FastText embeddings.
arxiv情報
著者 | Abhay Shanbhag,Suramya Jadhav,Amogh Thakurdesai,Ridhima Sinare,Raviraj Joshi |
発行日 | 2024-11-26 18:25:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google