Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media


我々は、オンライン ソーシャル ネットワークにおけるヘイトスピーチを検出するための新しいマルチモーダル グラフベースのトランスフォーマー モデルであるマルチモーダル ディスカッション トランスフォーマー (mDT) を紹介します。
これは、グラフ トランスフォーマーを活用してコメントを囲むディスカッション全体の文脈上の関係をキャプチャし、さまざまなモダリティを個別に処理するのではなく、織り交ぜられたフュージョン レイヤーを使用してテキストと画像の埋め込みを組み合わせることで実現されます。
最後に、オンラインのコンテキストで社会的価値を提供するためのマルチモーダル ソリューションの今後の取り組みについて結論付け、会話の全体像を把握することで反社会的行為を検出する取り組みが大幅に前進すると主張します。


We present the Multi-Modal Discussion Transformer (mDT), a novel multi-modal graph-based transformer model for detecting hate speech in online social networks. In contrast to traditional text-only methods, our approach to labelling a comment as hate speech centers around the holistic analysis of text and images. This is done by leveraging graph transformers to capture the contextual relationships in the entire discussion that surrounds a comment, with interwoven fusion layers to combine text and image embeddings instead of processing different modalities separately. We compare the performance of our model to baselines that only process text; we also conduct extensive ablation studies. We conclude with future work for multimodal solutions to deliver social value in online contexts, arguing that capturing a holistic view of a conversation greatly advances the effort to detect anti-social behavior.


著者 Liam Hebert,Gaurav Sahu,Nanda Kishore Sreenivas,Lukasz Golab,Robin Cohen
発行日 2023-07-18 14:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SI パーマリンク