要約
オンライン上のジェンダーに基づくハラスメントは、デジタル空間における女性や疎外されたジェンダーの自由な表現や参加を制限する広範な問題である。このような悪用コンテンツを検出することで、プラットフォームはこの脅威を抑制することができます。私たちはICON2023のGendered Abuse Detection in Indic Languagesという共有タスクに参加しました。このタスクでは、英語、ヒンディー語、タミル語のTwitter投稿にアノテーションを付けたデータセットを提供し、ジェンダーによる虐待を識別する分類器を構築しました。私たちのチームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発しました。CNNは、埋め込まれた入力テキストに適用される畳み込みフィルターを通して、虐待的な表現を示す局所的な特徴を捉える。文脈に基づく悪意を判断するために、BiLSTMはこのシーケンスを解析し、単語やフレーズ間の依存関係を調べる。FastTextとGloVeの単語埋め込みを使用して、7,600以上のクラウドソースから提供された、明示的な罵倒、標的を絞った少数派の攻撃、一般的な犯罪のラベルに渡る注釈からなる各言語データセットに対して、複数のバリエーションがトレーニングされた。検証の結果、f1-measures全体において、特に英語0.84において高い性能が示された。我々の実験は、埋め込みとモデルのハイパーパラメータをカスタマイズすることで、いかに検出能力を向上させることができるかを明らかにした。提案アーキテクチャはコンペティションで1位を獲得し、コードスイッチングを含む実世界のノイズの多いテキストを処理する能力を証明した。この技術は、言語インターネットユーザーが直面するサイバーハラスメントと戦うことを目的としたプラットフォームとして、有望な可能性を秘めている。我々のコードは https://github.com/advaithavetagiri/CNLP-NITS-PP にある。
要約(オリジナル)
Online gender-based harassment is a widespread issue limiting the free expression and participation of women and marginalized genders in digital spaces. Detecting such abusive content can enable platforms to curb this menace. We participated in the Gendered Abuse Detection in Indic Languages shared task at ICON2023 that provided datasets of annotated Twitter posts in English, Hindi and Tamil for building classifiers to identify gendered abuse. Our team CNLP-NITS-PP developed an ensemble approach combining CNN and BiLSTM networks that can effectively model semantic and sequential patterns in textual data. The CNN captures localized features indicative of abusive language through its convolution filters applied on embedded input text. To determine context-based offensiveness, the BiLSTM analyzes this sequence for dependencies among words and phrases. Multiple variations were trained using FastText and GloVe word embeddings for each language dataset comprising over 7,600 crowdsourced annotations across labels for explicit abuse, targeted minority attacks and general offences. The validation scores showed strong performance across f1-measures, especially for English 0.84. Our experiments reveal how customizing embeddings and model hyperparameters can improve detection capability. The proposed architecture ranked 1st in the competition, proving its ability to handle real-world noisy text with code-switching. This technique has a promising scope as platforms aim to combat cyber harassment facing Indic language internet users. Our Code is at https://github.com/advaithavetagiri/CNLP-NITS-PP
arxiv情報
| 著者 | Advaitha Vetagiri,Gyandeep Kalita,Eisha Halder,Chetna Taparia,Partha Pakray,Riyanka Manna |
| 発行日 | 2024-04-03 09:14:01+00:00 |
| arxivサイト | arxiv_id(pdf) |