Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces

要約

オンラインでのジェンダーに基づく嫌がらせは、デジタル空間における女性や疎外されたジェンダーの自由な表現と参加を制限する広範な問題です。
このような不正なコンテンツを検出することで、プラットフォームはこの脅威を抑制できるようになります。
私たちは、ICON2023 の「インド言語におけるジェンダー化された虐待の検出」共有タスクに参加しました。このタスクでは、ジェンダー化された虐待を識別するための分類器を構築するために、英語、ヒンディー語、タミル語で注釈が付けられた Twitter 投稿のデータセットが提供されました。
私たちのチーム CNLP-NITS-PP は、CNN と BiLSTM ネットワークを組み合わせたアンサンブル アプローチを開発しました。これにより、テキスト データの意味論的および連続的なパターンを効果的にモデル化できます。
CNN は、埋め込まれた入力テキストに適用される畳み込みフィルターを通じて、暴言を示す局所的な特徴をキャプチャします。
文脈に基づいた攻撃性を判断するために、BiLSTM はこのシーケンスを分析して単語やフレーズ間の依存関係を調べます。
明示的な虐待、少数派を対象とした攻撃、および一般的な犯罪に対して、ラベル全体で 7,600 を超えるクラウドソースのアノテーションで構成される各言語データセットに対して、FastText および GloVe の単語埋め込みを使用して複数のバリエーションがトレーニングされました。
検証スコアは、f1 測定値全体にわたって、特に英語 0.84 で優れたパフォーマンスを示しました。
私たちの実験では、埋め込みとモデルのハイパーパラメーターをカスタマイズすることで検出能力がどのように向上するかを明らかにしました。
提案されたアーキテクチャはコンペティションで 1 位にランクされ、コードスイッチングを使用して現実世界のノイズの多いテキストを処理できる能力を証明しました。
プラットフォームがインド言語のインターネットユーザーが直面するサイバーハラスメントと戦うことを目的としているため、この技術は有望な範囲を持っています。
私たちのコードは https://github.com/advaithavetagiri/CNLP-NITS-PP にあります。

要約(オリジナル)

Online gender-based harassment is a widespread issue limiting the free expression and participation of women and marginalized genders in digital spaces. Detecting such abusive content can enable platforms to curb this menace. We participated in the Gendered Abuse Detection in Indic Languages shared task at ICON2023 that provided datasets of annotated Twitter posts in English, Hindi and Tamil for building classifiers to identify gendered abuse. Our team CNLP-NITS-PP developed an ensemble approach combining CNN and BiLSTM networks that can effectively model semantic and sequential patterns in textual data. The CNN captures localized features indicative of abusive language through its convolution filters applied on embedded input text. To determine context-based offensiveness, the BiLSTM analyzes this sequence for dependencies among words and phrases. Multiple variations were trained using FastText and GloVe word embeddings for each language dataset comprising over 7,600 crowdsourced annotations across labels for explicit abuse, targeted minority attacks and general offences. The validation scores showed strong performance across f1-measures, especially for English 0.84. Our experiments reveal how customizing embeddings and model hyperparameters can improve detection capability. The proposed architecture ranked 1st in the competition, proving its ability to handle real-world noisy text with code-switching. This technique has a promising scope as platforms aim to combat cyber harassment facing Indic language internet users. Our Code is at https://github.com/advaithavetagiri/CNLP-NITS-PP

arxiv情報

著者 Advaitha Vetagiri,Gyandeep Kalita,Eisha Halder,Chetna Taparia,Partha Pakray,Riyanka Manna
発行日 2024-04-02 14:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク