要約
センチメント分析(SA)は、特定のテキスト内の感情的なトーンまたは極性を識別するプロセスであり、ユーザーの複雑な感情と内なる感情を明らかにすることを目指しています。
センチメント分析は、英語のような言語で広く研究されていますが、ベンガル語での研究は、特に細かい感情分類のために限られたままです。
この作業の目的は、ルールベースのアルゴリズムを事前に訓練された言語モデルと統合する新しいアプローチを開発することにより、このギャップを接続することを目的としています。
15,000を超える手動でラベル付けされたレビューを含むデータセットをゼロから開発しました。
次に、レキシコンデータ辞書を構築し、レビューに極性スコアを割り当てました。
センチメントスコアを生成し、レビューを9つの異なるセンチメントカテゴリに分類できるアプローチであるBangla Sentiment Polarity Score(BSPS)の新しいルールベースのアルゴリズムを開発しました。
この方法のパフォーマンスを評価するために、事前に訓練されたトランスベースの言語モデルであるBanglabertを使用して、分類された感情を評価しました。
また、元のデータでBanglabertと直接感情分類を実行し、このモデルの結果を評価しました。
私たちの分析により、BSPS + Banglabertハイブリッドアプローチがスタンドアロンバングラバートモデルを上回り、9つのセンチメントカテゴリ全体でより高い精度、精度、および微妙な分類を達成することが明らかになりました。
私たちの研究の結果は、ベンガル語での感情分析を強化するためのルールベースと事前に訓練された言語モデルアプローチを組み合わせることの価値と有効性を強調し、同様の言語複雑さを持つ言語での将来の研究と応用の経路を示唆しています。
要約(オリジナル)
Sentiment analysis (SA) is a process of identifying the emotional tone or polarity within a given text and aims to uncover the user’s complex emotions and inner feelings. While sentiment analysis has been extensively studied for languages like English, research in Bengali, remains limited, particularly for fine-grained sentiment categorization. This work aims to connect this gap by developing a novel approach that integrates rule-based algorithms with pre-trained language models. We developed a dataset from scratch, comprising over 15,000 manually labeled reviews. Next, we constructed a Lexicon Data Dictionary, assigning polarity scores to the reviews. We developed a novel rule based algorithm Bangla Sentiment Polarity Score (BSPS), an approach capable of generating sentiment scores and classifying reviews into nine distinct sentiment categories. To assess the performance of this method, we evaluated the classified sentiments using BanglaBERT, a pre-trained transformer-based language model. We also performed sentiment classification directly with BanglaBERT on the original data and evaluated this model’s results. Our analysis revealed that the BSPS + BanglaBERT hybrid approach outperformed the standalone BanglaBERT model, achieving higher accuracy, precision, and nuanced classification across the nine sentiment categories. The results of our study emphasize the value and effectiveness of combining rule-based and pre-trained language model approaches for enhanced sentiment analysis in Bengali and suggest pathways for future research and application in languages with similar linguistic complexities.
arxiv情報
著者 | Hemal Mahmud,Hasan Mahmud,Mohammad Rifat Ahmmad Rashid |
発行日 | 2025-04-23 17:18:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google