Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

要約

我々は、オンライン ソーシャル ネットワークにおけるヘイトスピーチを検出するための新しいマルチモーダル グラフベースのトランスフォーマー モデルであるマルチモーダル ディスカッション トランスフォーマー (mDT) を紹介します。
従来のテキストのみの方法とは対照的に、コメントをヘイトスピーチとしてラベル付けするための私たちのアプローチは、テキストと画像の総合的な分析を中心としています。
これは、グラフ トランスフォーマーを活用してコメントを囲むディスカッション全体の文脈上の関係をキャプチャし、さまざまなモダリティを個別に処理するのではなく、織り交ぜられたフュージョン レイヤーを使用してテキストと画像の埋め込みを組み合わせることで実現されます。
モデルのパフォーマンスをテキストのみを処理するベースラインと比較します。
また、広範囲にわたるアブレーション研究も行っています。
最後に、オンラインのコンテキストで社会的価値を提供するためのマルチモーダル ソリューションの今後の取り組みについて結論付け、会話の全体像を把握することで反社会的行為を検出する取り組みが大幅に前進すると主張します。

要約(オリジナル)

We present the Multi-Modal Discussion Transformer (mDT), a novel multi-modal graph-based transformer model for detecting hate speech in online social networks. In contrast to traditional text-only methods, our approach to labelling a comment as hate speech centers around the holistic analysis of text and images. This is done by leveraging graph transformers to capture the contextual relationships in the entire discussion that surrounds a comment, with interwoven fusion layers to combine text and image embeddings instead of processing different modalities separately. We compare the performance of our model to baselines that only process text; we also conduct extensive ablation studies. We conclude with future work for multimodal solutions to deliver social value in online contexts, arguing that capturing a holistic view of a conversation greatly advances the effort to detect anti-social behavior.

arxiv情報

著者 Liam Hebert,Gaurav Sahu,Nanda Kishore Sreenivas,Lukasz Golab,Robin Cohen
発行日 2023-07-18 14:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SI パーマリンク