AtteSTNet — An attention and subword tokenization based approach for code-switched text hate speech detection

要約

最近のテクノロジーの進歩により、ソーシャル メディアの使用が急増し、最終的には、嫌悪感や攻撃的な発言を含む大量のユーザー生成データが発生しています。
ソーシャル メディアで使用される言語は、多くの場合、英語とその地域の母国語の組み合わせです。
インドでは、ヒンディー語が主に使用され、しばしば英語とコード交換され、ヒンディー語 (ヒンディー語 + 英語) 言語が生まれます。
異なる機械学習および深層学習ベースの手法を使用して、コードが混在するヒングリッシュのヘイトスピーチを分類するために、過去にさまざまなアプローチが行われてきました。
ただし、これらの手法は、計算コストが高く、メモリ要件が高い畳み込みメカニズムで再帰を利用します。
また、過去の技術は複雑なデータ処理を利用しているため、既存の技術は非常に複雑であり、データの変更を持続できません。
提案された作業は、これらの複雑なネットワークと同等であるだけでなく、BPE や Unigram などのサブワード トークン化アルゴリズムとマルチヘッド アテンション ベースの手法を使用してパフォーマンスを超える、はるかに単純なアプローチを提供し、87.41% の精度と
標準データセットでの F1 スコアは 0.851 です。
BPE および Unigram アルゴリズムを効率的に使用することで、従来とは異なるヒングリッシュの語彙を処理することができ、提案された手法がシンプルで効率的になり、現実の世界で使用できるようになります。

要約(オリジナル)

Recent advancements in technology have led to a boost in social media usage which has ultimately led to large amounts of user-generated data which also includes hateful and offensive speech. The language used in social media is often a combination of English and the native language in the region. In India, Hindi is used predominantly and is often code-switched with English, giving rise to the Hinglish (Hindi+English) language. Various approaches have been made in the past to classify the code-mixed Hinglish hate speech using different machine learning and deep learning-based techniques. However, these techniques make use of recurrence on convolution mechanisms which are computationally expensive and have high memory requirements. Past techniques also make use of complex data processing making the existing techniques very complex and non-sustainable to change in data. Proposed work gives a much simpler approach which is not only at par with these complex networks but also exceeds performance with the use of subword tokenization algorithms like BPE and Unigram, along with multi-head attention-based techniques, giving an accuracy of 87.41% and an F1 score of 0.851 on standard datasets. Efficient use of BPE and Unigram algorithms help handle the nonconventional Hinglish vocabulary making the proposed technique simple, efficient and sustainable to use in the real world.

arxiv情報

著者 Geet Shingi,Vedangi Wagh,Kishor Wagh,Sharmila Wagh
発行日 2023-03-28 08:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク