A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis on Noisy Bengali Texts

要約

ベンガル語はリソースが限られた言語であると考えられていますが、感情分析は文献で広範な研究の対象となっています。
それにもかかわらず、特に騒々しいベンガル語テキストの領域における感情分析の探求は不足しています。
このペーパーでは、約 15,000 個のノイズの多いベンガル語テキストで構成される既存のセンチメント分析データセットで見つかった 10 種類のノイズを識別するために手動で注釈を付けたデータセット (NC-SentNoB) を紹介します。
まず、ノイズの多いテキストが入力されると、ノイズのタイプを識別し、これをマルチラベル分類タスクとして扱います。
次に、センチメント分析を実行する前にノイズを軽減するためのベースライン ノイズ低減方法を紹介します。
最後に、ノイズの多いテキストとノイズを低減したテキストの両方を使用して、微調整された感情分析モデルのパフォーマンスを評価し、比較します。
実験結果は、利用されたノイズ低減方法が満足のいくものではないことを示しており、今後の研究努力においてより適切なノイズ低減方法の必要性を強調しています。
この論文で紹介されている実装とデータセットは、https://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-Reduction-Methods-in-Sentiment-Analysis-on-Noisy-Bengali- で公開されています。
テキスト

要約(オリジナル)

While Bengali is considered a language with limited resources, sentiment analysis has been a subject of extensive research in the literature. Nevertheless, there is a scarcity of exploration into sentiment analysis specifically in the realm of noisy Bengali texts. In this paper, we introduce a dataset (NC-SentNoB) that we annotated manually to identify ten different types of noise found in a pre-existing sentiment analysis dataset comprising of around 15K noisy Bengali texts. At first, given an input noisy text, we identify the noise type, addressing this as a multi-label classification task. Then, we introduce baseline noise reduction methods to alleviate noise prior to conducting sentiment analysis. Finally, we assess the performance of fine-tuned sentiment analysis models with both noisy and noise-reduced texts to make comparisons. The experimental findings indicate that the noise reduction methods utilized are not satisfactory, highlighting the need for more suitable noise reduction methods in future research endeavors. We have made the implementation and dataset presented in this paper publicly available at https://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-Reduction-Methods-in-Sentiment-Analysis-on-Noisy-Bengali-Texts

arxiv情報

著者 Kazi Toufique Elahi,Tasnuva Binte Rahman,Shakil Shahriar,Samir Sarker,Md. Tanvir Rouf Shawon,G. M. Shahariar
発行日 2024-01-25 18:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク