Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection

要約

最近のソーシャル メディアの使用量の急増と急激な増加に伴い、ソーシャル メディア コンテンツに憎悪に満ちたコンテンツが存在していないかを精査することが最も重要です。
研究者たちは過去 10 年にわたり、憎悪を助長するコンテンツとそうでないコンテンツを区別することに熱心に取り組んできました。
従来、主な焦点はテキストコンテンツの分析でした。
ただし、最近では、オーディオベースのコンテンツの識別に関する研究も開始されています。
それにもかかわらず、最近の流行は、個人がスピーチや文章で皮肉を使用することが多いことを示しているため、音声またはテキストベースのコンテンツだけに依存することは効果的ではない可能性があることを研究が示しています。
これらの課題を克服するために、音声表現とテキスト表現の両方を利用して、スピーチが憎しみを助長するかどうかを識別するアプローチを紹介します。
私たちの方法論は、「Attentive Fusion」と呼ばれる独自のレイヤーを伴う、オーディオとテキストの両方のサンプリングを組み込んだ Transformer フレームワークに基づいています。
私たちの研究の結果は、これまでの最先端の技術を上回り、テストセットで 0.927 という素晴らしいマクロ F1 スコアを達成しました。

要約(オリジナル)

With the recent surge and exponential growth of social media usage, scrutinizing social media content for the presence of any hateful content is of utmost importance. Researchers have been diligently working since the past decade on distinguishing between content that promotes hatred and content that does not. Traditionally, the main focus has been on analyzing textual content. However, recent research attempts have also commenced into the identification of audio-based content. Nevertheless, studies have shown that relying solely on audio or text-based content may be ineffective, as recent upsurge indicates that individuals often employ sarcasm in their speech and writing. To overcome these challenges, we present an approach to identify whether a speech promotes hate or not utilizing both audio and textual representations. Our methodology is based on the Transformer framework that incorporates both audio and text sampling, accompanied by our very own layer called ‘Attentive Fusion’. The results of our study surpassed previous state-of-the-art techniques, achieving an impressive macro F1 score of 0.927 on the Test Set.

arxiv情報

著者 Atanu Mandal,Gargi Roy,Amit Barman,Indranil Dutta,Sudip Kumar Naskar
発行日 2024-01-19 11:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP パーマリンク