BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models for Sentiment Analysis of Bangla Social Media Posts

要約

バングラ語は世界で 7 番目に広く話されている言語であり、主にインドとバングラデシュ出身の 2 億 3,400 万人もの母語話者がいます。
この形態的に豊かな言語は、多様な方言や言語特有の課題を包含する豊かな文学の伝統を誇ります。
言語の豊かさと歴史にもかかわらず、バングラ語は、自然言語処理 (NLP) および音声コミュニティ内では依然としてリソースの少ない言語として分類されています。
この文書は、BLP ワークショップのタスク 2 (バングラのソーシャル メディア投稿の感情分析) への提出物を紹介します。
この課題を解決するために、さまざまな Transformer ベースのアーキテクチャを試しています。
私たちの定量的な結果は、転移学習がこの低リソース言語シナリオにおけるモデルの学習を改善するのに実際に役立つことを示しています。
これは、感情分析タスク用に twitter データですでに微調整されたモデルをさらに微調整すると、その微調整されたモデルが他のすべてのモデルの中で最高のパフォーマンスを発揮する場合に明らかになります。
また、詳細なエラー分析も実行し、グラウンド トゥルース ラベルを再検討する必要があるいくつかのインスタンスを見つけます。
テスト セットでは 67.02\% のマイクロ F1 が得られ、この共有タスクでのパフォーマンスはリーダーボードで 21 位にランクされています。

要約(オリジナル)

Bangla is the 7th most widely spoken language globally, with a staggering 234 million native speakers primarily hailing from India and Bangladesh. This morphologically rich language boasts a rich literary tradition, encompassing diverse dialects and language-specific challenges. Despite its linguistic richness and history, Bangla remains categorized as a low-resource language within the natural language processing (NLP) and speech community. This paper presents our submission to Task 2 (Sentiment Analysis of Bangla Social Media Posts) of the BLP Workshop. We experiment with various Transformer-based architectures to solve this task. Our quantitative results show that transfer learning really helps in better learning of the models in this low-resource language scenario. This becomes evident when we further finetune a model which has already been finetuned on twitter data for sentiment analysis task and that finetuned model performs the best among all other models. We also perform a detailed error analysis where we find some instances where ground truth labels need to be relooked at. We obtain a micro-F1 of 67.02\% on the test set and our performance in this shared task is ranked at 21 in the leaderboard.

arxiv情報

著者 Saumajit Saha,Albert Nanda
発行日 2023-10-13 16:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク