LowResource at BLP-2023 Task 2: Leveraging BanglaBert for Low Resource Sentiment Analysis of Bangla Language

要約

この論文では、BLP-2023 のタスク 2 の LowResource チームのシステムについて説明します。これには、さまざまなソーシャル メディア プラットフォームからの公開投稿とコメントで構成されるデータセットに対する感情分析の実行が含まれます。
私たちの主な目的は、微調整、ランダム トークンのドロップ、およびいくつかの外部データセットの使用などのさまざまな戦略を使用して、大規模なバングラ コーパスで事前トレーニングされた BERT モデルである BanglaBert を利用することです。
私たちの最終モデルは、3 つの最高の BanglaBert バリエーションのアンサンブルです。
私たちのシステムは、テストセットで 0.718 のスコアを獲得し、参加 30 チーム中全体で 3 位を達成しました。
さらに、うまく機能しなかった有望なシステム、つまり BanglaT5 を使用したタスク適応型関連および言い換えについても説明します。
私たちのシステムに使用されるトレーニング コードと外部データセットは、https://github.com/Aunabil4602/bnlp-workshop-task2-2023 で公開されています。

要約(オリジナル)

This paper describes the system of the LowResource Team for Task 2 of BLP-2023, which involves conducting sentiment analysis on a dataset composed of public posts and comments from diverse social media platforms. Our primary aim is to utilize BanglaBert, a BERT model pre-trained on a large Bangla corpus, using various strategies including fine-tuning, dropping random tokens, and using several external datasets. Our final model is an ensemble of the three best BanglaBert variations. Our system has achieved overall 3rd in the Test Set among 30 participating teams with a score of 0.718. Additionally, we discuss the promising systems that didn’t perform well namely task-adaptive pertaining and paraphrasing using BanglaT5. Training codes and external datasets which are used for our system are publicly available at https://github.com/Aunabil4602/bnlp-workshop-task2-2023

arxiv情報

著者 Aunabil Chakma,Masum Hasan
発行日 2023-11-21 17:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク