要約
【タイトル】 ドラヴィダ語でのホモフォビアとトランスフォビアの検出:深層学習手法の探索
【要約】
– 現在、オンラインのソーシャルメディアプラットフォームで悪用されるコンテンツの増加がオンラインユーザーの社会生活に影響を与えている。侮辱的で憎悪に満ちたスピーチは、ソーシャルメディアを毒気のあるものにしている。
– ホモフォビアとトランスフォビアはLGBT+コミュニティに対する攻撃的なコメントを意味する。これらのコメントを検出して処理することが不可欠であり、早期に該当する行為に従事しているユーザーに警告を発することが求められる。
– しかしながら、このようなコンテンツの自動検出は、低資源言語として識別されるドラヴィダ語において特に困難な課題となっている。
– この論文は、この問題に対処するために異なる深層学習モデルの適用性を探索することを試みている。マラヤーラム語とタミル語のソーシャルメディアコメントを同性愛者嫌悪、トランスジェンダー嫌悪、非反LGBT+コンテンツの分類に使用される、畳み込みニューラルネットワーク(CNN)、GloVeエンベディングを使用した長・短期メモリ(LSTM)、トランスフォーマー学習モデル(マルチリンガルBERTおよびIndicBERT)が適用されている。
– 得られた結果は、IndicBERTが他の実装されたモデルを上回り、マラヤーラム語とタミル語の重み付き平均F1スコアがそれぞれ0.86と0.77であることを示している。
– したがって、本稿は選ばれたドラヴィダ語において、IndicBERTが与えられたタスクで高い性能を示し、優れた検出結果が得られたことを確認している。
要約(オリジナル)
The increase in abusive content on online social media platforms is impacting the social life of online users. Use of offensive and hate speech has been making so-cial media toxic. Homophobia and transphobia constitute offensive comments against LGBT+ community. It becomes imperative to detect and handle these comments, to timely flag or issue a warning to users indulging in such behaviour. However, automated detection of such content is a challenging task, more so in Dravidian languages which are identified as low resource languages. Motivated by this, the paper attempts to explore applicability of different deep learning mod-els for classification of the social media comments in Malayalam and Tamil lan-guages as homophobic, transphobic and non-anti-LGBT+content. The popularly used deep learning models- Convolutional Neural Network (CNN), Long Short Term Memory (LSTM) using GloVe embedding and transformer-based learning models (Multilingual BERT and IndicBERT) are applied to the classification problem. Results obtained show that IndicBERT outperforms the other imple-mented models, with obtained weighted average F1-score of 0.86 and 0.77 for Malayalam and Tamil, respectively. Therefore, the present work confirms higher performance of IndicBERT on the given task in selected Dravidian languages.
arxiv情報
著者 | Deepawali Sharma,Vedika Gupta,Vivek Kumar Singh |
発行日 | 2023-04-03 12:15:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI