要約
このペーパーでは、バングラ言語処理に関する第 1 回ワークショップの共有タスク「暴力扇動テキスト検出」の作業について説明します。
ソーシャルメディアは、社会における憎悪や暴力を扇動する言論の蔓延を加速させています。
このようなテキストの拡散を検出し、阻止するための効率的なメカニズムを開発することが不可欠です。
暴力を誘発するテキストの検出の問題は、研究がまばらでデータが少ないため、リソースが少ない環境ではさらに悪化します。
共有タスクで提供されるデータはバングラ語のテキストで構成されており、各例は暴力を誘発するテキストの種類に基づいて定義された 3 つのカテゴリのいずれかに分類されます。
私たちはいくつかの BERT ベースのモデルを試して評価し、最終提出としてモデルのアンサンブルを使用します。
私たちの提出物は、マクロ F1 スコア 0.737 で、共有タスクの最終リーダーボードで 10 位にランクされています。
要約(オリジナル)
This paper presents our work for the Violence Inciting Text Detection shared task in the First Workshop on Bangla Language Processing. Social media has accelerated the propagation of hate and violence-inciting speech in society. It is essential to develop efficient mechanisms to detect and curb the propagation of such texts. The problem of detecting violence-inciting texts is further exacerbated in low-resource settings due to sparse research and less data. The data provided in the shared task consists of texts in the Bangla language, where each example is classified into one of the three categories defined based on the types of violence-inciting texts. We try and evaluate several BERT-based models, and then use an ensemble of the models as our final submission. Our submission is ranked 10th in the final leaderboard of the shared task with a macro F1 score of 0.737.
arxiv情報
著者 | Saurabh Page,Sudeep Mangalvedhekar,Kshitij Deshpande,Tanmay Chavan,Sheetal Sonawane |
発行日 | 2023-11-30 18:23:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google