Overview of the HASOC Subtrack at FIRE 2023: Identification of Tokens Contributing to Explicit Hate in English by Span Detection

要約

ウェブ上でヘイトスピーチが蔓延し続ける中、それを軽減するための計算手法を開発することがますます重要になっています。
事後的に、ブラックボックス モデルを使用して嫌がらせコンテンツを特定すると、ユーザーは、なぜ自分の投稿に嫌がらせとして自動的にフラグが付けられたのか困惑する可能性があります。
一方、投稿が公開される前に言い換えを提案することで、積極的な緩和を実現できます。
ただし、どちらの緩和手法でも、投稿のどの部分に憎悪の側面が含まれているか、つまり、テキスト内のどの部分が憎悪を伝える原因となっているかに関する情報が必要です。
このようなスパンをより適切に検出することで、Web 上の明示的に嫌悪感を与えるコンテンツを大幅に減らすことができます。
この研究分野にさらに貢献するために、私たちは HASOC-FIRE 2023 で英語ツイートにおける明示的なスパン検出に焦点を当てた HateNorm を開催しました。
合計 12 チームが競技会に参加し、マクロ F1 の最高値は 0.58 でした。

要約(オリジナル)

As hate speech continues to proliferate on the web, it is becoming increasingly important to develop computational methods to mitigate it. Reactively, using black-box models to identify hateful content can perplex users as to why their posts were automatically flagged as hateful. On the other hand, proactive mitigation can be achieved by suggesting rephrasing before a post is made public. However, both mitigation techniques require information about which part of a post contains the hateful aspect, i.e., what spans within a text are responsible for conveying hate. Better detection of such spans can significantly reduce explicitly hateful content on the web. To further contribute to this research area, we organized HateNorm at HASOC-FIRE 2023, focusing on explicit span detection in English Tweets. A total of 12 teams participated in the competition, with the highest macro-F1 observed at 0.58.

arxiv情報

著者 Sarah Masud,Mohammad Aflah Khan,Md. Shad Akhtar,Tanmoy Chakraborty
発行日 2023-11-16 12:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク